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内 容 简 介 


本 书 则 在 掌握 深度 学 习 基本 知识 和 特性 的 基础 上 , 培养 使 用 TensorFlow+OpenCV 进行 实际 编程 以 解决 图 
像 处 理 相关 问题 的 能 力 。 全 书 力求 通过 通俗 易 懂 的 语言 和 详细 的 程序 分 析 ， 介 绍 TensorFlow 的 基本 用 法 、 高 
级 模型 设计 和 对 应 的 程序 编写 。 

本 书 共 13 章 , 内 容 包 括 计 算 机 视觉 与 深度 学 习 的 关系 、Python 的 安装 和 使 用 、Python 数据 处 理 及 可 视 化 、 
机 器 学 习 的 理论 和 算法 、 计 算 机 视觉 处 理 库 OpenCV 、OpenCV 图 像 处 理 实战 、TensorFlow 基本 数据 结构 和 
使 用 、TensorFlow 数据 集 的 创建 与 读 取 、BP 神经 网 络 、 反 馈 神经 网 络 、 卷 积 神经 网 络 等 。 本 书 强 调理 论 联系 
实际 ， 着 重 介绍 TensorFlow+OpenCV 解决 图 像 识别 的 应 用 ， 提 供 大 量 数 据 集 供 读者 使 用 ， 并 以 代码 的 形式 实 
现 深度 学 习 模型 实例 供 读者 参考 。 

本 书 既 可 作为 学 习 人 工 神经 网 络 、 深 度 学 习 、TensorFlow 程序 设计 以 及 图 像 处 理 等 相关 内 容 的 程序 设计 
人 员 的 自学 用 书 ， 也 可 作为 高 等 院 校 和 培训 学 校 相 关 专业 的 教材 使 用 。 
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我 们 处 于 一 个 变革 的 时 代 ! 

给 定 一 个 物体 , 让 一 个 3 岁 的 小 孩 描 述 这 个 物体 是 什么 似乎 是 一 件 非常 简单 的 事情 。 然 而 
将 同样 的 东西 放 在 计算 机 面前 ,让 它 描 述 自己 看 到 了 什么 ,这 在 不 久 以 前 还 是 一 件 不 可 能 的 事 。 

让 计算 机 学 会 “看 ”东西 是 一 个 专门 的 学 科 一 一 计算 机 视觉 正在 做 的 工作 。 借 助 于 人 工 神 
经 网 络 和 深度 学 习 的 发 展 , 近年 来 计算 机 视觉 在 研究 上 取得 了 重大 的 突破 。 通 过 模拟 生物 视觉 
所 构建 的 卷 积 神经 网 络 模型 在 图 像 识 别 和 分 类 上 取得 了 非常 好 的 效果 。 

而 今 ， 借 助 于 深度 学 习 技术 的 发 展 ， 使 用 人 工 智能 去 处 理 常规 劳动 ， 理 解 语音 语义 ， 帮助 
医学 诊断 和 支持 基础 科研 工作 ， 这 些 曾经 是 梦想 的 东西 似乎 都 在 眼前 。 


写作 本 书 的 原因 


TensorFlow 作为 最 新 的 、 应 用 范围 最 为 广泛 的 深度 学 习 开源 框架 引起 了 广泛 的 关注 , 吸 
引 了 大 量程 序 设 计 和 开发 人 员 进 行 相关 内 容 的 学 习 与 开发 。 掌 握 TensorFlow 编程 基本 技能 
的 程序 设计 人 员 成 为 当前 各 组 织 和 单位 热切 追求 的 最 热门 人 才 之 一 。 他 们 的 主要 工作 就 是 利 
用 获得 的 数据 集 设计 不 同 的 人 工 神经 模型 , 利用 人 工 神经 网 络 强 大 的 学 习 能 力 提取 和 挖掘 数 
据 集中 包含 的 潜在 信息 ， 编 写 相 应 的 TensorFlow 程序 对 数据 进行 处 理 ， 对 其 价值 进行 进 一 
步 开 发 ， 为 商业 机 会 的 获取 、 管 理 模式 的 创新 、 决 策 的 制定 提供 相应 的 支持 。 随 着 越 来 越 多 
的 组 织 、 单 位 对 深度 学 习 应 用 的 重视 ， 高 层次 的 TensorFlow 程序 设计 人 员 将 会 成 为 就 业 市 
场 上 抢手 的 人 才 。 

与 其 他 应 用 框架 不 同 的 是 ，TensorFlow 并 不 是 一 个 简单 的 编程 框架 ， 深 度 学 习 也 不 是 一 
个 简单 的 名 词 ， 需 要 相关 研究 人 员 对 隐藏 在 其 代码 背后 的 理论 进行 系统 学 习 、 掌 握 一 定 的 数学 
知识 和 理论 基础 。 本 书 的 作者 具有 长 期 一 线 理科 理论 教学 经 验 , 可 以 将 其 中 的 理论 知识 以 非常 
浅显 易 懂 的 语言 描述 出 来 。 这 一 点 是 市 面 上 相关 书籍 无 法 比拟 的 。 
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本 书 是 为 了 满足 广大 TensorFlow 程序 设计 和 开发 人 员 学 习 最 新 TensorFlow 程序 代码 的 要 
求 而 出 版 的 。 书 中 对 涉及 深度 学 习 的 结构 与 编程 代码 做 了 循序 渐进 的 介绍 与 说 明 , 以 解决 实际 
图 像 处 理 为 依托 ， 从 理论 开始 介绍 TensorFlow+OpenCV 程序 设计 模式 ， 多 角度 、 多 方面 地 对 
其 中 的 原理 和 实现 提供 翔实 的 分 析 , 同时 结合 实际 案例 编写 的 应 用 程序 设计 可 以 使 读者 从 开发 
者 的 层面 掌握 TensorFlow 程序 的 设计 方法 和 技巧 、 为 开发 出 更 强大 的 图 像 处 理应 用 打下 扎实 
的 基础 。 


本 书 的 优势 

COD 本 书 偏重 于 介绍 使 用 卷 积 神经 网 络 及 其 相关 变化 的 模型 ， 在 TensorFlow 框架 上 进行 
图 像 特征 提取 、 图 像 识别 以 及 具体 应 用 ， 这 是 目前 已 出 版 图 书 中 鲜 有 涉及 的 。 

(2) 本 书 并 非 枯燥 的 理论 讲解 ， 而 是 作者 阅读 和 参考 了 大 量 最 新 文献 做 出 的 归纳 总 结 ， 
在 这 点 上 也 与 其 他 编程 书籍 有 本 质 区 别 。 书 中 的 例子 都 是 来 自 于 现实 世界 中 对 图 像 分 辩 和 特征 
的 竞赛 优胜 模型 ， 通 过 介绍 这 些 例子 可 以 使 读者 更 深 一 步 地 了 解 和 掌握 其 内 在 的 算法 和 本 质 。 

GO 本 书 作者 有 长 期 研究 生 和 本 科教 学 经 验 , 通过 通俗 易 懂 的 语言 对 全 部 内 容 进行 讲解 ， 
深入 浅 出 地 介绍 反馈 神经 网 络 和 卷 积 神经 网 络 理论 体系 的 全 部 知识 点 ,并 在 程序 编写 时 使 用 官 
方 推荐 的 TensorFlow 最 新 框架 进行 程序 设计 ， 帮 助 读者 更 好 地 使 用 最 新 的 模型 框架 、 理 解 和 
掌握 TensorFlow 程序 设计 的 精妙 之 处 。 

(4). 掌握 和 使 用 深度 学 习 的 人 才 应 该 在 掌握 基本 知识 和 理论 的 基础 上 ， 重 视 实际 应 用 程 
序 开发 能 力 和 解决 问题 能 力 的 培养 。 因 此, 本 书 结合 作者 在 实际 工作 中 遇 到 的 实际 案例 进行 分 
析 ， 抽 象 化 核心 模型 并 给 出 具体 解决 方案 ， 并 提供 了 全 部 程序 例题 的 相应 代码 以 供 读者 学 习 。 


本 书 的 内 容 

本 书 共 分 为 13 章 , 所 有 代码 均 采用 Python 语言 (TensorFlow 框架 推荐 使 用 的 语言 ) 编写 。 

第 1 章 介绍 计算 机 视觉 与 深度 学 习 的 关系 , 旨 在 说 明 使 用 深度 学 习 和 人 工 智能 实现 计算 机 
视觉 是 未 来 的 发 展 方向 ， 也 是 必然 趋势 。 

第 2 章 介 绍 Python 3.6*Tensorflow 1.9+OpenCV 3.4.2 的 环境 搭建 。Python 语言 是 易 用 性 非 
常 强 的 语言 ,可 以 很 方便 地 将 公式 和 愿景 以 代码 的 形式 表达 出 来 , 而 无 须 学 习 过 多 的 编程 知识 。 
本 章 还 介绍 Python 专用 类 库 threading 的 使 用 。 这 个 类 库 虽 不 常见 ， 但 会 为 后 文 的 数据 读 取 和 
TensorFlow 专用 格式 的 生成 打下 基础 。 

第 3 章 主要 介绍 Python 语言 的 使 用 。 通 过 介绍 和 实现 不 同 的 Python 类 库 ， 帮 助 读 者 强化 
Python 的 编程 能 力 、 学 习 相 应 类 库 。 这 些 都 是 在 后 文中 反复 使 用 的 内 容 。 同 时 借用 掌握 的 知 
识 学 习 数据 的 可 视 化 展示 能 力 〈 在 数据 分 析 中 是 一 项 基本 技能 ， 具 有 非常 重要 的 作用 )。 

第 4 章 全 面 介绍 机 器 学 习 的 基本 分 类 、 算 法 和 理论 基础 ， 以 及 不 同 算法 (例如 回归 算法 和 











决策 树 算法 ) 的 具体 实现 和 应 用 。 这 些 是 深度 学 习 的 基础 理论 部 分 ,向 读者 透彻 而 准确 地 展示 
深度 学 习 的 结构 与 应 用 ， 为 后 文 进一步 掌握 深度 学 习 在 计算 机 视觉 中 的 应 用 打下 扎实 的 基础 。 

第 5-6 章 是 对 OpenCV 类 库 (Python 中 专门 用 于 图 像 处 理 的 类 库 ) 使 用 方法 的 介绍 。 本 
书 以 图 像 处 理 为 重点 ， 因 此 对 图 像 数据 的 读 取 、 编 辑 以 及 加 工 是 重 中 之 重 。 通 过 基础 讲解 和 进 
阶 介绍 ， 读 者 可 以 掌握 这 个 重要 类 库 的 使 用 ， 学 会 对 图 像 的 裁剪 、 变 换 和 平移 的 代码 编写 。 

第 7-8 章 是 TensorFlow 的 入 门 基础 ， 通 过 一 个 娱乐 性 质 的 网 站 向 读者 介绍 TensorFlow 的 
基本 应 用 , 用 图 形 图 像 的 方式 演示 神经 网 络 进行 类 别 分 类 的 拟 合 过 程 , 在 娱乐 的 同时 了 解 其 背 
后 的 技术 。 

第 9 章 是 本 书 的 一 个 重点 , 也 是 神经 网 络 的 基础 内 容 。 本 章 的 反馈 算法 是 解决 神经 网 络 计 
算 量 过 大 的 里 程 碑 算法 。 作 者 使 用 通俗 易 懂 的 语言 ， 通 过 详细 严谨 的 讲解 ， 对 这 个 算法 进行 了 
介绍 ,并 且 通 过 独立 编写 代码 的 形式 , 为 读者 实现 神经 网 络 中 最 重要 的 算法 。 本 章 的 内 容 看 起 
来 不 多 ， 但 是 非常 重要 。 

第 10 章 对 TensorFlow 的 数据 输入 输出 做 了 详细 的 介绍 。 从 读 取 CSV 文件 开始 ， 到 教会 
读者 制作 专用 的 TensorFlow 数据 格式 TFRecord， 这 是 目前 市 面 上 的 书籍 鲜 有 涉及 的 。 对 于 使 
用 TensorFlow 框架 进行 程序 编写 ， 数 据 的 准备 和 规范 化 是 重 中 之 重 ， 因 此 本 章 也 是 较为 重要 
的 一 个 章节 。 

第 11~12 章 是 应 用 卷 积 神经 网 络 在 TensorFlow 框架 上 进行 学 习 的 一 个 基础 教程 ， 经 过 前 
面 章节 的 铺垫 和 介绍 ,采用 基本 理论 一 一 卷 积 神经 网 络 进行 手写 体 的 辨识 是 深度 学 习 最 基本 的 
技能 ,也 是 非常 重要 的 一 个 学 习 基 础 。 并 且 在 程序 编写 的 过 程 中 , 作者 向 读者 展示 了 参数 调整 
对 模型 测试 结果 的 重要 作用 ， 这 也 是 目前 市 面 上 相关 书籍 没有 涉及 的 内 容 ， 非 常 重要 。 

第 13 章 通过 一 个 完整 的 例子 演示 使 用 卷 积 神经 网 络 进行 图 像 识别 的 流程 。 例 子 来 自 于 
ImageNet 图 像 识别 竞赛 ， 所 采用 的 模型 也 是 比赛 中 获得 准确 率 最 高 的 模型 。 通 过 对 项 目 每 一 
步 的 详细 分 析 ， 手 把 手 地 教会 读者 使 用 卷 积 神经 网 络 进行 图 像 识 别 。 

除 此 之 外 , 全 书 对 于 目前 图 像 识别 最 流行 和 取得 最 好 成 绩 的 深度 学 习 模型 做 了 介绍 , 这 些 
都 是 目前 深度 学 习 的 热点 和 研究 重点 。 


本 书 的 特点 


© ”本 书 不 是 纯粹 的 理论 知识 介绍 ， 也 不 是 高 深 技 术 研 讨 ， 完 全 是 从 实践 应 用 出 发 ， 用 最 
简单 的 、 典 型 的 示例 引申 出 核心 知识 ,最 后 还 指出 了 通 往 “高 精 尖 ”进一步 深入 学 习 
的 道路 。 

€ ”本 书 没有 深入 介绍 某 一 个 知识 块 ， 而 是 全 面 介 绍 TensorFlow+OpenCV 涉及 的 图 像 处 
理 的 基本 结构 和 上 层 程 序 设计 方法 , 借 此 能 够 系统 综合 性 地 掌握 深度 学 习 的 全 貌 ,使 
读者 在 学 习 过 程 中 不 至 于 迷失 方向 。 

€ ”本 书 在 写作 上 浅显 易 懂 ， 没 有 深奥 的 数学 知识 ， 采 用 较为 形象 的 形式 ， 用 大 量 图 像 例 
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子 描 述 应 用 的 理论 知识 ， 让 读者 在 轻松 愉悦 的 阅读 下 掌握 相关 内 容 。 

e ”本 书 旨 在 引导 读者 进行 更 多 技术 上 的 创新 ,每 章 都 会 用 示例 描述 的 形式 帮助 读者 更 好 
地 理解 本 章 的 学 习 内 容 。 

@ 本 书 代码 遵循 重 构 原 理 ， 避 免 代码 污染 ， 真 心 希望 读者 能 写 出 优秀 、 简 洁 、 可 维护 的 
代码 。 


示例 代码 下 载 
本 书 配套 的 示例 代码 下 载 地 址 可 以 通过 扫描 右边 二 维 码 获取 。 


如 果 下 载 有 问题 ， 或 者 对 本 书 有 疑问 和 建议 ， 请 联系 
booksaga@163.com， 邮 件 主题 为 “OpenCV+TensorFlow”。 





本 书 适合 人 群 

本 书 适 合 于 学 习 人 工 神经 网 络 、 深 度 学 习 、 计 算 机 视觉 以 及 TensorFlow 程序 设计 等 相关 
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当 作者 还 是 一 个 懂 懂 的 小 孩 的 时 候 ， 电 视 台 播 放 的 一 部 美国 动画 片 《 变 形 金刚 》《〈 如 图 
1-1 所 示 ) 激 起 了 作者 对 机 器 人 的 浓厚 兴趣 。 一 句 “ 汽 车 人 ， 变 形 ， 出 发 ! ”不 光 是 孩子 ， 甚 
至 于 连 陪同 观看 的 大 人 们 也 会 被 那些 懂 幽 默 、 会 调侃 ， 充 满 着 正义 、 勇 敢 、 智 慧 、 热 情 、 所 向 
无 敌 的 变形 金刚 人 物 所 吸引 。 


[D 
j 


DECEPTICONS OVERVIEL 





图 1-1 变形 金刚 一 一 霸 天 虎 
长 久 以 来 , 机 器 人 和 人 工 智能 主题 的 电影 、 电 视 剧 和 动画 片 一 直 备 受 观众 所 喜爱 ， 人 类 用 
对 未 来 的 无 尽 的 想象 力 和 炫目 的 特技 效果 构筑 了 一 个 又 一 个 精彩 的 未 来 世界 , 令 人 陶醉 。 但 是 
回归 到 现实 ,计算 机 科学 家 和 工程 技术 人 员 的 创造 和 设计 能 力 却 远 远 赶不上 电影 编剧 们 的 想象 
Jj. 动画 片 终究 是 动画 片 ， 变 形 金刚 也 不 存在 于 这 个 现实 世界 中 ,要 研发 出 一 个 像 霸 天 虎 一 样 
能 思考 、 看 得 到 周围 景物 、 听 得 懂 人 类 语言 并 和 人 类 进行 流利 对 话 的 机 器 人 , 这 条 路 还 很 漫长 。 


计算 机 视觉 与 深度 学 习 的 关系 


长 期 以 来 , 让 计算 机 能 看 会 听 可 以 说 是 计算 机 科学 家 和 孜孜不倦 的 追求 目标 , 这 个 目标 中 最 
基础 的 就 是 让 计算 机 能 够 看 见 这 个 世界 , 赋予 计算 机 一 双 和 人 类 一 样 的 眼睛 , 让 它们 也 能 看 懂 
这 个 美好 的 世界 , 这 也 是 激励 作者 及 所 有 为 之 奋斗 的 计算 机 工作 者 的 主要 动力 。 虽然 目前 计算 
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机 并 不 能 达到 动画 片 中 变形 金刚 的 十 分 之 一 的 能 力 ， 但 是 技术 进步 是 不 会 停止 的 。 


1.1.1 人 类 视觉 神经 的 启迪 


20 世纪 50 年 代 ，Torsten Wiesel 和 David Hubel 两 位 神经 科学 家 在 猫 和 猴子 身上 做 了 一 项 
非常 有 名 的 关于 动物 视觉 的 实验 (如 图 1-2 所 示 ) 。 
Electrical signal 
from brain 


Recording electrode 一 一 





Q Stimulus 


1-2 HAE A BARA 


实验 中 猫 的 头 部 被 固定 , 视野 只 能 落 在 一 个 显示 屏 区 域 ， 显示 屏 上 会 不 时 出 现 小 光 点 或 者 
划 过 小 光 条 ， 而 一 条 导线 直接 连 入 猫 的 脑 部 区 域 中 的 视觉 皮层 位 置 。 

Torsten Wiesel 和 David Hubel 通过 实验 发 现 ， 当 有 小 光 点 出 现在 屏幕 上 时 ， 猫 视觉 皮层 
的 一 部 分 区 域 被 激活 ， 随 着 不 同 光 点 的 闪现 , 不 同 脑 部 视觉 神经 区 域 被 激活 。 而 当 屏 幕 上 出 现 
光 条 时 ， 则 有 更 多 的 神经 细胞 被 激活 ， 区 域 也 更 为 丰富 。 他 们 的 研究 还 发 现 ， 有 些 脑 部 视觉 细 
胞 对 于 明暗 对 比 非常 敏感 ， 对 视野 中 光亮 的 方向 〈 不 是 位 置 ) 和 光亮 移动 的 方向 具有 选择 性 。 

自从 Torsten Wiesel 和 David Hubel 做 了 这 个 有 名 的 脑 部 视觉 神经 实验 之 后 , 视觉 神经 科 
学 (如 图 1-3 所 示 ) 正式 被 人 们 所 确立 。 截 至 目前 ， 关 于 视觉 神经 的 几 个 广 为 接 受 的 观点 是 : 


€ /— 大 脑 对 视觉 信息 的 处 理 是 分 层级 的 ， 低 级 脑 区 可 能 处 理 边 度 、 边 缘 的 信息 ， 高 级 脑 区 
处 理 更 抽象 的 信息 ， 比 如 人 脸 、 房 子 、 物 体 的 运动 之 类 的 。 信 息 被 一 层 一 层 地 提取 出 
来 往 上 传递 进行 处 理 。 

@ 大脑 对 视觉 信息 的 处 理 也 是 并 行 的 ,不 同 的 脑 区 提取 出 不 同 的 信息 , 干 不 同 的 活 ， 有 
的 负责 处 理 这 个 物体 是 什么 ， 有 的 负责 处 理 这 个 物体 是 怎么 动 的 。 

e 脑 区 之 间 存 在 着 广泛 的 联系 ， 同 时 高 级 皮层 对 低级 皮层 也 有 很 多 的 反馈 投射 。 

e ”信息 的 处 理 普遍 受到 自 上 而 下 和 自 下 而 上 的 调控 。 也 就 是 说 , 大 脑 可 能 选择 性 地 对 某 
些 空间 或 者 某 些 特征 进行 更 加 精细 的 加 工 。 


ET 





图 1-3 视觉 神经 科学 
进一步 的 研究 发 现 , 当 一 个 特定 物体 出 现在 视野 的 任意 一 个 范围 , 某 些 脑 部 的 视觉 神经 元 
会 一 直 处 于 固定 的 活跃 状态 。 从 视觉 神经 科学 的 角度 解释 , 就 是 人 类 的 视觉 辨识 是 从 视网膜 到 
脑 皮层 ,神经 系统 从 识别 细微 细小 的 特征 演变 为 目标 识别 。 对 计算 机 来 说 ， 如 果 拥 有 这 么 一 个 
“ 脑 皮 层 ” 对 信号 进行 转换 ， 那 么 计算 机 仿照 人 类 拥有 视觉 就 会 变 为 现实 。 


1.4.2. 计算 机 视觉 的 难点 与 人 工 神经 网 络 

尽管 通过 大 量 的 研究 , 人 类 视觉 的 秘密 正在 逐渐 被 揭 开 , 但 是 相同 的 想法 和 经 验 用 于 计算 
机 上 却 并 非 易 事 。 计算 机 识别 往往 有 严格 的 限制 和 规格 , 即使 同一 张 图 片 或 者 场景 , 一 旦 光线 ， 
甚至 于 观察 角度 发 生变 化 ， 那么 计算 机 的 判别 也 会 发 生变 化 。 对 于 计算 机 来 说 , 识别 两 个 独立 
的 物体 容易 ， 但 是 在 不 同 的 场景 下 识别 同一 个 物体 则 困难 得 多 。 

因此 ,计算 机 视觉 的 核心 在 于 如 何 忽 略 同一 个 物体 内 部 的 差异 而 强化 不 同 物体 之 间 的 分 别 
(如 图 1-4 所 示 ) ， 即 同一 个 物体 相似 ， 而 不 同 的 物体 之 间 有 很 大 的 差别 。 





1-4 计算 机 视觉 


长 期 以 来 ,对 于 解决 计算 机 视觉 识别 问题 , 大 量 的 研究 人 员 投 入 了 很 多 的 精力 , 贡献 了 很 
多 不 同 的 算法 和 解决 方案 。 经 过 不 懈 的 努力 和 无 数 次 尝试 ， 最 终 计算 机 视觉 研究 人 员 发 现 ， 
使 用 人 工 神经 网 络 用 以 解决 计算 机 视觉 问题 是 最 好 的 解决 办 法 。 

人 工 神经 网 络 在 20 世纪 60 年 代 就 产生 萌芽 , 但 是 限于 当时 的 计算 机 硬件 资源 , 其 理论 只 
能 停留 在 简单 的 模型 之 上 ， 无 法 得 到 全 面 的 发 展 和 验证 。 
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随 着 人 们 对 人 工 神经 网 络 的 进一步 研究 , 20 世纪 80 年 代 人 工 神经 网 络 具有 里 程 碑 意义 的 
理论 基础 “ 反 向 传播 算法 ”的 发 明 , 将 原本 非常 复杂 的 链 式 法 则 拆 解 为 一 个 个 独立 的 、 只 有 前 
后 关系 的 连接 层 ， 并 按 各 自 的 权重 分 配 错误 更 新 。 这 种 方法 使 得 人 工 神经 网 络 从 繁重 的 、 几 乎 
不 可 能 解决 的 样本 计算 中 脱离 出 来 ,通过 学 习 已 有 的 数据 统计 规律 ,对 未 定位 的 事件 做 出 预测 。 

随 着 研究 的 进一步 深入 ，2006 年 ， 多 伦 多 大 学 的 Geoffrey Hinton 在 深层 神经 网 络 的 训练 
上 取得 了 突破 。 他 首次 证 明了 使 用 更 多 隐 层 和 更 多 神经 元 的 人 工 神 经 网 络 具 有 更 好 的 学 习 能 
力 。 其 基本 原理 就 是 使 用 具有 一 定 分 布 规律 的 数据 ， 保 证 神经 网 络 模型 初始 化 ,再 使 用 监督 数 
据 在 初始 化 好 的 网 络 上 进行 计算 ， 使 用 反 向 传播 对 神经 元 进行 优化 调整 。 





1.1.3 ”应 用 深度 学 习 解 决 计算 机 视觉 问题 

受 前 人 研究 的 启发 ，“ 带 有 卷 积 结构 的 深度 神经 网 络 (CNN) ”被 大 量 应 用 于 计算 机 视 
觉 之 中 。 这 是 一 种 仿照 生物 视觉 的 逐 层 分 解 算法 ， 分 配 不 同 的 层级 对 图 像 进行 处 理 〈 如 图 1-5 
所 示 ) 。 例 如 ， 第 一 层 检测 物体 的 边缘 、 角 点 、 尖 锐 或 不 平滑 的 区 域 ， 这 一 层 几 乎 不 包含 语义 
信息 ; 第 二 层 基于 第 一 层 检测 的 结果 进行 组 合 ， 检 测 不 同 物体 的 位 置 、 纹 路 、 形 状 等 ， 并 将 这 
些 组 合 传递 给 下 一 层 。 以 此 类 推 ， 使 得 计算 机 和 生物 一 样 拥有 视觉 能 力 、 辨 识 能 力 和 精度 。 





图 1-5 分 层 的 视觉 处 理 算法 


因此 CNN， 特 别 是 其 基本 原理 和 算法 被 视 为 计算 机 视觉 的 首选 解决 方案 ， 这 就 是 深度 学 
习 的 一 个 应 用 。 除 此 之 外 ， 深 度 学 习 应 用 于 计算 机 视觉 上 还 有 其 他 优点 ， 主 要 表现 如 下 : 
e ”深度 学 习 算法 的 通用 性 很 强 ,在 传统 算法 里 面 ,针对 不 同 的 物体 需要 定制 不 同 的 算法 。 
相 比 来 看 , 基于 深度 学 习 的 算法 更 加 通用 , 比如 在 传统 CNN 基础 上 发 展 起 来 的 faster 
RCNN， 在 人 脸 、 行 人 、 一 般 物 体检 测 任务 上 都 可 以 取得 非常 好 的 效果 (如 图 1-6 所 
示 ) 。 
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© ”深度 学 习 获得 的 特征 (feature) 有 很 强 的 迁移 能 力 。 所 谓 特征 迁移 能 力 ， 指 的 是 在 人 
任务 上 学 习 到 一 些 特征 ,在 也 任务 上 使 用 也 可 以 获得 非常 好 的 效果 。 例 如 在 ImageNet 
(物体 为 主 ) 上 学 习 到 的 特征 ， 在 场景 分 类 任务 上 也 能 取得 非常 好 的 效果 。 
€ ”工程 开发 、 优 化 、 维 护 成 本 低 。 深 度 学 习 计算 主要 是 卷 积 和 短 阵 乘法 ， 针 对 这 种 计算 
优化 ， 所 有 深度 学 习 算 法 都 可 以 提升 性 能 。 





图 1-6 计算 机 视觉 辨识 图 片 


计算 机 视觉 学 习 的 基础 与 研究 方向 


计算 机 视觉 是 一 个 专门 教 计算 机 如 何 去 “ 看 ”的 学 科 , 更 进一步 的 解释 就 是 使 用 机 器 替代 
生物 眼睛 来 对 目标 进行 识别 ， 并 在 此 基础 上 做 出 必要 的 图 像 处 理 ， 加 工 所 需要 的 对 象 。 

使 用 深度 学 习 并 不 是 一 件 简单 的 事 ， 建 立 一 项 有 真正 识别 能 力 的 计算 机 视觉 系统 更 不 容 
易 。 从 学 科 分 类 上 来 说 ， 计 算 机 视觉 的 理念 在 某 些 方面 其 实 与 其 他 学 科 有 很 大 一 部 分 的 重叠， 
其 中 包括 : 人 工 智 能 、 数 字 图 像 处 理 、 机 器 学 习 、 深 度 学 习 、 模 式 识别 、 概 率 图 模型 、 科 学 计 
算 , 以 及 一 系列 的 数学 计算 等 。 这 些 领 域 急 需 相关 研究 人 员 学 习 其 基础 知识 , 理解 并 找 出 规律 ， 
从 而 揭示 那些 我 们 以 前 不 曾 注 意 过 的 细节 。 











1.2.1 学 习 计算 机 视觉 结构 图 


对 于 相关 的 研究 人 员 , 可 以 把 使 用 深度 学 习 解决 计算 机 视觉 的 问题 归纳 成 一 个 结构 关系 图 
(如 图 1-7 所 示 ) 。 
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1-7 计算 机 视觉 结构 图 


对 于 计算 机 视觉 学 习 来 说 , 选择 一 个 好 的 训练 平台 是 重 中 之 重 。 因为 对 于 绝 大 多 数 的 学 习 
者 来 说 , 平台 的 易 用 性 以 及 便捷 性 往往 决定 着 学 习 的 成 败 。 目 前 常用 的 是 TensorFlow、Caffe、 
PyTroch 等 。 

其 次 是 模型 的 使 用 。 自 2006 年 深度 学 习 的 概念 被 确立 以 后 ， 经 过 不 断 的 探索 与 尝试 ， 研 
究 人 员 确 立 了 模型 设计 是 计算 机 视觉 训练 的 核心 内 容 ， 其 中 应 用 广泛 使 用 的 是 AlexNet、 
VGGNet、GoogleNet、ResNet 等 。 

除 此 之 外 , 速度 和 周期 也 是 需要 考虑 的 一 个 非常 重要 的 因素 ,如 何 使 得 训练 速度 更 快 ， 如 
何 使 用 模型 更 快 地 对 物体 进行 辨识 ， 这 是 计算 机 视觉 中 非常 重要 的 问题 。 

所 有 的 模型 设计 和 应 用 最 核心 的 部 分 就 是 任务 处 理 的 对 象 , 这 里 主要 包括 检测 、 识 别 、 分 
割 、 特 征 点 定位 、 序 列 学 习 5 个 大 的 任务 ， 可 以 说 任何 计算 机 视觉 的 具体 应 用 都 是 由 这 5 个 任 
务 中 的 一 个 或 者 几 个 组 合 而 成 的 。 


1.22 计算 机 视觉 的 学 习 方式 和 未 来 趋势 

“给 计算 机 连 上 一 个 摄像 头 ， 让 计算 机 描述 它 看 到 了 什么 。” 这 是 计算 机 视觉 作为 一 门 学 
科 被 提出 时 就 决定 下 来 的 目标 ， 如 今 大 量 的 研究 人 员 为 这 个 目标 孜孜 不 倦 地 工作 着 。 

拿 出 一 张 图 片 ， 上 面 是 一 只 狗 和 一 只 猫 ， 让 一 个 人 去 辨识 (如 图 1-8 所 示 ) 。 无 论 图 片上 
的 猫 或 者 狗 的 形象 与 种 类 如 何 ,， 人 类 总 是 能 够 精确 地 区 分 图 片 是 猫 还 是 狗 。 而 把 这 种 带 有 标注 
的 图 片 送 到 神经 网 络 模型 中 去 学 习 ， 这 种 学 习 方 式 称 为 “监督 学 习 ”。 




















1-8 ” 猫 和 狗 
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虽然 目前 来 说 , 在 监督 学 习 的 计算 机 视觉 领域 , 深度 学 习 取 得 了 重大 成 果 , 但 是 相对 于 生 
物 视 觉 学 习 和 分 辨 方式 的 “ 半 监 督学 习 ” 和 “无 监督 学 习 ”, 还 有 更 多 更 重要 的 内 容 急 需 解决 ， 
比如 视频 里 物体 的 运动 、 行 为 存在 特定 规律 ; 在 一 张 图 片 里 ， 一 个 动物 也 是 有 特定 的 结构 的 ， 
利用 这 些 视频 或 图 像 中 特定 的 结 告 构 可 以 把 一 个 无 监督 的 问题 转化 为 一 个 有 监督 问题 , 然后 利用 
有 监督 学 习 的 方法 来 学 习 。 这 是 计算 机 视觉 的 学 习 方 式 。 

MIT 给 机 器 “看 电视 剧 ”预测 人 类 行为 ，MIT 的 人 工 智 能 为 视频 配音 ， 迪 士 尼 研究 院 可 
以 让 AI 直接 识别 视频 里 正在 发 生 的 事 。 除 此 之 外 ， 计 算 机 视觉 还 可 以 应 用 在 那些 人 类 能 力 所 
限 、 感觉 器 官 不 能 及 的 领域 和 单调 乏味 的 工作 上 一 一 在 微笑 瞬间 自动 按 下 快门 , 帮助 汽车 驾 
员 泊 车 入 位 ,捕捉 身体 的 姿态 与 电脑 游戏 互动 ， 工 厂 中 准确 地 焊接 部 件 并 检查 缺陷 ,忙碌 的 购 
物 季 节 帮 助 仓 库 分 拣 商 品 ， 离 开 家 时 扫地 机 器 人 清洁 房间 ， 自 动 将 数码 照片 进行 识别 分 类 。 

或 许 在 不 久 的 将 来 〈 如 图 1-9 所 示 ) ， 超 市 电子 秤 在 称 重 的 同时 就 能 辨别 出 蔬菜 的 种 类 ， 
门禁 系统 分 六 出 是 辜 着 礼物 的 朋友 :还 是 手持 光村 用 交行 究 的 罗 和 : 可 穿戴 设备 和 手机 帮助 
我 们 识别 出 镜头 中 的 物体 并 搜索 出 相关 信息 。 更 奇妙 的 是 , 它 还 能 超越 人 类 双眼 的 感官 ， 用 声 
波 、 ANEREN ETET, GENIUS NNI, AFEA Ki 
突破 我 们 的 想象 ， 帮助 理论 物理 学 家 分 析 超 过 三 维 的 空间 中 物体 的 运动 。 

这 些 ， 似 乎 并 不 遥远 。 





























图 1-9 计算 机 视觉 的 未 来 


本 章 小 结 


本 书 在 写作 的 时 候 , 应 用 深度 学 习作 为 计算 机 视觉 的 解决 方案 已 经 得 到 共识 , 深度 神经 网 
络 已 经 明显 地 优 于 其 他 学 习 技术 以 及 设计 出 的 特征 提取 计算 。 神 经 网 络 的 发 展 浪潮 已 经 迎面 而 
来 , 在 过 去 的 历史 发 展 中 , 深度 学 习 、 人 工 神经 网 络 以 及 计算 机 视觉 大 量 借鉴 和 使 用 了 人 类 以 
及 其 他 生物 视觉 神经 方面 的 知识 和 内 容 , 而 且 得 益 于 最 新 的 计算 机 硬件 水 平 的 提高 , 更 多 的 数 
据 集 的 收集 以 及 能 够 设计 更 深 的 网 络 计算 , 使 得 深度 学 习 的 普及 性 和 应 用 性 都 有 了 非常 快 的 发 
展 。 充 分 利用 这 些 资源 进一步 提高 使 用 深度 学 习 进 行 计算 机 视觉 的 研究 , 并 将 其 带 到 一 个 新 的 
高 度 和 领域 是 本 书写 作 的 目的 和 对 读者 的 期 望 。 
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“人 生 苦 短 ， 我 用 Python" 

这 是 Python 语言 在 自身 宣传 和 推广 中 使 用 的 口号 ， 针 对 深度 学 习 也 是 这 样 。 对 于 相关 研 
究 人 员 , 最 直接 、 最 简洁 的 需求 就 是 将 自己 的 想法 从 纸 面 进化 到 可 以 运行 的 计算 机 代码 ,在 这 
个 过 程 中 ， 所 需 花 费 的 精力 越 小 越 好 。 

Python 完全 可 以 满足 这 个 需求 ， 在 计算 机 代码 的 编写 和 实现 过 程 中 ，Python 简洁 的 语言 
设计 本 身 可 以 帮助 用 户 避 开 没 必要 的 陷阱 ， 减 少 变量 声明 ， 随 用 随 写 ， 无 须 对 内 存 进行 释放 ， 

这 些 都 极 大 地 帮助 了 我 们 使 用 Python 编写 出 需要 的 程序 。 

其 次 ，Python 的 社区 开发 成 熟 ， 有 非常 多 的 第 三 方 类 库 可 以 使 用 。 在 本 章 中 还 会 介绍 
NumPy、PIL 以 及 threading 三 个 主要 的 类 库 ， 这 些 开源 的 算法 类 库 在 后 面 的 程序 编写 过 程 中 
会 起 到 极 大 的 作用 。 

最 后 ， 相 对 于 其 他 语言 ，Python 有 较 高 的 运行 效率 ， 而 且 得 益 于 Python 开发 人 员 的 不 懈 
努力 ，Python 友好 的 接口 库 甚至 可 以 加 速 程序 的 运行 效率 ， 而 无 须 去 了 解 底 层 的 运行 机 制 。 

“人 生 苦 短 ， 何 不 用 Python。”Python 让 其 使 用 者 专注 LEONE 身 而 无 须 纠结 一 
些 技术 细节 。Python 作为 深度 学 习 以 及 TensorFlow 框架 主要 的 编程 语言 ， 更 需要 读者 去 掌握 


与 学 习 。 





Python 基本 安装 和 用 法 


Python 是 深度 学 习 的 首选 开发 语言 ， 但 是 对 于 安装 来 说 ， 第 三 方 提供 了 集成 了 大 量 科学 
计算 类 库 的 Python 标准 安装 包 ， 目 前 最 常用 的 是 Anaconda. 

Anaconda 里 面 集 成 了 很 多 关于 Python 科学 计算 的 第 三 方 库 ， 主 要 是 安装 方便 ， 而 Python 

一 个 脚本 语言 ， 如 果 不 使 用 Anaconda， 那 么 第 三 方 库 的 安装 会 较为 困难 ， 各 个 库 之 间 的 依 
MEDERE. 因此 ， 这 里 推荐 使 用 集合 了 大 量 第 三 方 类 库 的 安装 程序 Anaconda 来 
THX Python 的 安装 。 











第 2 章 Python 的 安装 与 使 用 
2.1.1 Anaconda 的 下 载 与 安装 


1. 第 一 步 : 下 载 和 安装 
Anaconda 的 下 载 地 址 是 https:/www.continuum.io/downloads/， 页 面 如 图 2-1 所 示 。 
















distribution, try Miniconda which contains only 
conda and Python. Then install just the individual 
packages you want through the conda command. 


Additionally, you'll have access to over 720 packages that can easily be installed 
with conda, our renowned package, dependency and environment manager, 
that is included in Anaconda. See the packages included with Anaconda and the 





Anaconda changelog 
Download for Windows Download for macOS Download for Linux 
Anaconda 4.3.1 Python 3.6 version 
For Windows 64-BIT INSTALLER (422M 
Anaconda is BSD licensed which gives you permission to use Anaconda 





commercially and for redistributon 


32-BIT INSTALLER (348M) 


Changelog 


1. Download the installer 
2. Opona: Verify data integrity with MDS or SHA-256 More 
info Python 2.7 version 
3. Double-click the .exe file to install Anaconda and follow the 

instructions on the screen 
64-BIT INSTALLER (414 








d Windows installers 


图 2-1 Anaconda 下 载 页 面 


目前 下 载 的 是 Anaconda 4.3.1 版 本 ， 里 面 集成 了 Python 3.6。 读 者 可 以 根据 自己 的 操作 系 
统 进行 下 载 。 

这 里 作者 选择 的 是 Windows 版 本 ， 下 载 之 后 双击 运行 即 可 安装 ， 过 程 基本 与 其 他 软件 一 
样 。 安 装 完成 以 后 ， 出 现 程序 面板 ， 目 录 如 图 2-2 所 示 。 


Behind a firewall? Use these zipp 


O Anaconda Cloud (py35) 

O Anaconda Cloud 

E Anaconda Navigator (py35) 
iO Anaconda Navigator 

lil Anaconda Prompt (py35) 
W Anaconda Prompt 

IP IPython (py35) 

IP IPython 

Z Jupyter Notebook (py35) 
二 Jupyter Notebook. 

二 Jupyter QTConsole (py35) 
二 Jupyter QTConsole 

® Reset Spyder Settings (py35) 
图 Reset Spyder Settings 

9 Spyder (py35) 

9 Spyder 


图 2-2 Anaconda 安装 目录 


2. 第 二 步 : 打开 控制 台 
之 后 依次 单 击 : 开始 一 所 有 程序 一 Anaconda 一 Anaconda Prompt, 打开 窗口 的 效果 如 图 2-3 








dA. 


中 最 常用 的 是 conda 命令 ， 














所 示 。 这 些 步 骤 和 打开 CMD 控制 台 类 似 ， 输 入 命令 就 可 以 控制 和 配置 Python。 在 Anaconda 


这 个 命令 可 以 执行 一 些 基本 操作 。 








i: Anaconda Prompt 


(C: AMD VEnaconda3) 





Anaconda Prompt 控制 台 





3. 第 三 步 : 验证 Python 


在 
输入 代码 : 





: 制 台中 输入 python， 会 打印 出 版 本 号 以 及 控制 符号 


print("hello Python") 


输入 结果 如 图 2-4 所 示 。 





而 EA: Anaconda Prompt - python 


(C: \AMD\Anaconda3) C:NU 
Python 3.5.2 Innaconda 


\xiaohua>python 


om (64-bit) (default, Jul 5 2016, 11:41:13) [MSC u.i 


1909 64 bit (AMD64)] on win32 


T “help 


copyright”, “credits” or “license” for more information 


print("hello Python") 


o Python 





图 2-4 验证 Anaconda Python 安装 成 功 


4. 第 四 步 : 使 用 conda 命令 

















作者 建议 读者 使 
类 库 ， 查 看 已 安 





conda list 


在 Anaconda Prompt 控制 台中 输 


装 的 第 三 方 类 库 的 命令 是 : 


。 然 后 在 Python 控制 符 


于 号 >>> 后 














Anaconda 的 好 处 在 于 ， 它 能 够 方便 地 帮助 读者 安装 和 使 





输入 exit0, 或 者 重新 打开 Anaconda Prompt 控制 


入 conda list 代码 ， 结 果 如 图 2-5 所 示 。 
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大 量 第 三 广 


台 后 直接 输 





xiaohua}conda list 
要 packages in environment at C:\AMD\Anaconda3 
d 


| license 
| nb. ext. conf 


Bnaconda-clean 
Bnaconda-client 
naconda-navigator 


oouobuo- 


wil 





NoxSo-2r2o2ouo 








图 2-5 列 出 已 安装 的 第 三 方 类 库 





Anaconda 中 使 用 conda 进行 操作 的 方法 还 有 很 多 ， 
令 如 下 : 





i 要 的 是 安装 第 


conda install name 





的 
过 ) ， 那 么 输入 相应 的 命令 就 是 : 


名 ， 例 如 当 需 要 





这 里 的 name 是 需要 安 装 NumPy 包 〈 这 个 包 已 经 








conda install numpy 


使 用 Anaconda 的 一 个 特别 的 好 处 就 是 可 以 自动 安装 包 的 依赖 类 库 ， 如 图 2-6 所 示 ， 这 样 
大 大 减轻 了 使 用 者 在 安装 和 使 用 某 个 特定 类 库 时 碰 到 的 依赖 类 库 缺 失 的 困难 , 使 得 后 续 工作 顺 
利 进行 。 








WB 管理 号: Anaconda Promp: 
Pynavelets; 9.5.2-np112py35_0 


conda install numpy z 


following packages will be UPDATED 


astropy: .2.1-np111py35_0 
.1.0-np111py35. 0 


-np111py35_2 - 
-uc14_9 N [uc14] 
llunlite 
natplotlib 3-npllipu35 0 
mkl: 3- 
numba 1-np111py 
numexpr: IE ePi Ipus 
nunpu 
pandas: .19 a np111py35_1 - 1-np112py: 
tables 2-np111py35_ > np112py3 
ikit-image: np111py35_1 --> 9.13.6-np112py 
scikit-learn 7.1-np111 > 9.18 1-np112py 
scipy 18. 1-np111pu35_0 --》6.19.6-np112pu 
statsmodels: > 9.8.0-np112py3 





0:24:02 92.71 kB/s 





图 2-6 自动 获取 或 更 新 依赖 类 库 
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2.1.2 Python 编译 器 PyCharm 的 安装 

和 其 他 语言 类 似 ，Python 程序 的 编写 可 以 使 用 Windows 自 带 的 控制 台 进行 。 但 是 这 种 方 
式 对 于 较为 复杂 的 程序 工程 来 说 , 容易 混淆 相互 之 间 的 层级 和 交互 文件 , 因此 在 编写 程序 工程 
时 ， 作 者 建议 使 用 专用 的 Python 编译 器 PyCharm。 

1. 第 一 步 : PyCharm 的 下 载 和 安装 

PyCharm 的 下 载 地 址 为 http://www.jetbrains.com/pycharm/。 

进入 Download 页 面 后 可 以 选择 不 同 的 版 本 ， 有 收费 的 专业 版 和 免费 的 社区 版 ， 如 图 2-7 
所 示 。 这 里 作者 建议 读者 选择 免费 的 社区 版 即 可 。 本 书 使 用 的 版 本 为 2017.1.2。 


PyCharm Whats New Fesures Docs& Domos Buy Download 





Download PyCharm 


Windows macos Una 


Professional Community 


Full-featured IDE ERE Lightweight IDE 


for Python & Web for Python & Scientific 
development development 


2-7 PyCharm 的 免费 版 
安装 文件 下 载 下 来 后 ， 双 击 运行 进入 安装 界面 ， 直 接 单 击 Next 按钮 采用 默认 安装 即 可 ， 
如 图 2-8 所 示 。 












PyCharm Community Edition Setup 一 X 


Welcome to the PyCharm 
Community Edition Setup Wizard 

This wizard will guide you through the installation of PyCharm 
Community Edition. 


It is recommended that you dose all other applications 
before starting Setup. This will make it possible to update 
relevant system files without having to reboot your 
computer. 


Click Next to continue. 








[ net> | | con 





2-8 PyCharm 的 安装 文件 


第 2 章 Python 的 安装 与 使 用 


需要 注意 的 是 ， 在 安装 PyCharm 的 过 程 中 需要 对 安装 的 位 数 进行 选择 ， 这 里 建议 读者 选 
择 与 所 安装 Python 相同 位 数 的 文件 ， 如 图 2-9 所 示 。 





PyCharm Community Edition Setup - x 


Installation Options 
Configure your PyCharm Community Edition installation. 




















32-bitlauncher [7] 64bit launcher 








[sm rens ] | omes | 





图 2-9 





安装 完成 后 出 


PyCharm 的 位 数 选择 


现 Finish 按钮 ， 单 击 后 完成 安装 ， 如 图 2-10 所 示 。 





所 示 。 


Ei PyCharm Community Edition Setup - 


Completing the PyCharm Community 
Edition Setup Wizard 


PyCharm Community Edition has been installed on your 
computer. 


Click Finish to dose this wizard. 


口 








Run PyCharm Community Edition 





图 2-10 PyCharm 安装 完成 


2. 第 二 步 : 使 用 PyCharm 创建 程序 
单 击 桌 面 上 新 生成 的 略图 标 进入 PyCharm 程序 界面 ,首先 是 第 一 次 启动 的 定位 ,如 图 2-11 
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图 2-11 PyCharm 启动 定位 
这 里 是 对 程序 存储 的 定位 ， 一 般 建议 选择 第 二 项 ， 由 PyCharm 自动 指定 ， 单 击 OK 按钮 。 
之 后 单 击 弹出 的 Accept 按钮 ， 接 受 相应 的 协议 ， 进 入 界面 配置 选项 ， 如 图 2-12 所 示 。 
sape to Pham n — —  — mm d 


You can use File | Settings to configure any of these settings iater. 


E 之 ) 


图 2-12 PyCharm 界面 配置 


在 配置 区 域 可 以 选择 自己 的 使 用 风格 对 PyCharm 的 界面 进行 配置 , 如 果 对 其 不 熟悉 的 话 ， 
直接 单 击 OK 按钮 使 用 默认 配置 即 可 。 
最 后 就 是 创建 一 个 新 的 工程 ， 如 图 2-13 所 示 。 


PyCharm 

















图 2-13 PyCharm 工程 创建 界面 
在 这 里 ， 建 议 读者 新 建 一 个 PyCharm 的 工程 文件 ， 如 图 2-14 所 示 。 





第 2 章 ， Python 的 安装 与 使 用 











图 2-14 PyCharm 新 建文 件 界面 
之 后 右 击 新 建 的 工程 名 “PyCharm”， 在 弹出 的 菜单 中 单 击 “new”|“Python File” 新 建 
一 个 “helloworld” 文 件 ， 内 容 如 图 2-15 所 示 。 


1$ helloworld.py x 
1 print("hello world") 











图 2-15 ”新建 的 helloworld 文件 


输入 代码 后 ， 单 击 runlrun... 菜 单 开始 运行 ， 或 者 直接 右 击 “helloworldpy” 后 ， 在 弹出 的 
菜单 中 选择 rmmn。 如 果 成 功 输出 “hello world”， 那 么 恭喜 你 ，Python 与 PyCharm 的 配置 就 成 
功 了 ! 


2.1.3 ”使 用 Python 计算 softmax 函数 

对 于 Python 科学 计算 来 说 ， 最 简单 的 想法 就 是 可 以 将 数学 公式 直接 表达 成 程序 语言 ， 可 
以 说 ，Python 满足 了 这 个 想法 。 本 小 节 将 使 用 Python 实现 和 计算 一 个 深度 学 习 中 最 为 常见 的 
函数 一 一 softmax 函数 。 至 于 这 个 函数 的 作用 ， 现 在 暂时 不 做 说 明 ， 作 者 只 是 带领 读者 尝试 实 
现 其 程序 的 编写 。 

首先 softmax 计算 公式 如 下 所 示 : 


e 
E 
"n 
ze 
0 


其 中 瑟 是 长 度 为 7 的 数列 六 中 的 一 个 数 ,， 带 入 softmax 的 结果 其 实 就 是 先 对 每 一 个 所 取 @ 


g= 
rj 
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为 底 的 指数 计算 变 成 非 负 ， 然 后 除 以 所 有 项 之 和 进行 归 一 化 ， 之 后 每 个 巨 就 可 以 解释 成 观察 
到 的 数据 所 属于 某 个 类 别 的 概率 ， 或 者 称 作 似 然 (Likelihood) 。 











| softmax 用 以 解决 概率 计算 中 概率 结果 大 占 绝对 优势 的 问题 。 例 如 函数 计算 结果 中 的 2 个 

| 值 a 和 b， 且 a>b,， 如果 简单 地 以 值 的 大 小 为 单位 衡量 的 话 ， 那么 在 后 续 的 使 用 过 程 中 ,a 

| 永远 被 选用 , 而 b 由 于 数值 较 小 而 不 会 被 选择 , 但 是 有 时 也 需要 数值 小 的 b 被 使 用 ,那么 
softmax 就 可 以 解决 这 个 问题 。 








softmax 按照 概率 选择 a 和 b， 由 于 a 的 概率 值 大 于 b， 在 计算 时 a 经 常会 被 取得 ， 而 b 由 
于 概率 较 小 ， 取 得 的 可 能 性 也 较 小 ， 但 是 也 有 概率 被 取得 。 
公式 softmax 的 代码 如 下 所 示 : 
import numpy 
def softmax (inMatrix): 
mn = numpy.shape (inMatrix) 
outMatrix = numpy.mat (numpy.zeros( (m,n))) 
soft sum= 0 
for idx in range (0,n): 
outMatrix[0,idx] = math.exp(inMatrix[0,idx]) 
soft sum += outMatrix[0,idx] 
for idx in range (0,n): 
outMatrix[0,idx] = outMatrix[0,idx] / soft sum 
return outMatrix 


可 以 看 到 ， 当 传 入 一 个 数列 后 , 分 别 计算 每 个 数值 所 对 应 的 指数 函数 值 , 之 后 将 其 相 加 后 
计算 每 个 数值 在 数值 和 中 的 几率 。 


a = numpy.array([[1,2,1,2,1,1,3]]) 


结果 如 下 所 示 : 


[[ 0.05943317 0.16155612 0.05943317 0.16155612 0.05943317 0.05943317 
0. 43915506]] 


2 e 2 TensorFlow 类 库 的 下 载 与 安装 
(基于 CPU 模式 ) 


对 于 TensorFlow 的 安装 来 说 ， 由 于 在 前 面 已 指导 读者 使 用 Anaconda 进行 Python 环境 的 





置 。TensorFlow 的 安装 就 非常 简便 了 。 
首先 打开 Anaconda 安装 目录 中 的 Anaconda Prompt， 如 图 2-16 所 示 。 


管理 员 : Anaconda Prompt - python 


Ub 











图 2-16 Anaconda Prompt 控制 台 


之 后 直接 输入 如 下 : 

pip install tensorflow 

之 后 将 自动 根据 你 所 安 : 
安装 成 功 即 可 。 

安装 完成 以 后 输入 如 下 命令 行 : 





的 Anaconda 环境 ，% 





装 对 应 的 最 新 TensorFlow 类 库 。 等 待 提示 


conda list 


在 显示 的 目录 中 找到 tensorflow， 可 以 查看 对 应 的 版 本 号 ， 如 图 2-17 所 示 


uc14h7ce8c62_1 [vc14] 全 
pu36h6189blc 0 
py36h96708e0_0 
«pip» 
pu36h30f5020 0 
[2122 
tensorflou-gpu pip? 
tensorflow-tensorboard spip» 
termcolor 








pip> 
py36h2698cfe_0 

pip> 
uc14hb68737d_1 [vc14] 
py36he152a52_0 
py36h57f6948_9 

«pip» 
pu36h096827d 0 


pip 
pu36hb035bda 0 
py36h6450c06_0 
pu36h276f60a 0 

4 h2379b0c_2 

4.0.25123 hdüclie62 2 

UR py36h3d5aa90_0 > 














图 2-17 测试 程序 tensorflow 安装 目录 
需要 验证 TensorFlow 安装 的 情况 , 首先 打开 PyCharm, 新 建 一 个 hello tensorflow 的 Python 
文件 ， 代 码 如 程序 2-1 所 示 。 
【程序 2-1】 


import tensorflow as tf 
hello - tf.constant("hello tensorflow") 


sess — tf.Session() 
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print (sess.run (hello)) 


打印 结果 : b hello tensorflow  。 


2 e 3 TensorFlow 类 库 的 下 载 与 安装 
(基于 GPU 模式 ) 


22 节 中 安装 的 是 基于 CPU 模式 的 TensorFlow 类 库 ， 这 也 是 一 般 默 认 安装 的 TensorFlow 
模式 , 而 往往 在 进行 大 规模 数据 计算 时 需要 安装 基于 GPU 模式 的 TensorFlow, 输入 如 下 代码 : 


pip install tensorflow-gpu 


等 待 提示 成 功 后 即 可 认为 基于 GPU 模式 的 TensorFlow 安装 完毕 。 但 是 如 果 需 要 真正 使 用 
GPU 模式 对 数据 进行 处 理 , 除了 安装 tensorflow-gpu 库 包 以 外 , 还 需要 安装 CUDA 与 cuDNN; 
这 是 NVIDIA 为 了 使 用 GPU 进行 程序 运算 专门 提供 的 工具 包 。 


2.3.1 CUDA 配置 
由 于 本 书 使 用 的 是 最 新 的 tensorflow-gpu 版 本 ， 其 对 应 cuda 9.0.dll， 因 此 就 要 下 载 cuda 9.0 
对 应 Windows 版 本 的 安装 文件 。 
(OD 下 载 地 址 https://developer.nvidia.com/cuda-90-download-archive。 
(2) 下 一 步 是 选择 下 载 的 版 本 (如 图 2-18 所 示 ) ， 这 里 NVIDIA 提供 了 多 种 版 本 ， 请 读 
者 自行 选择 对 应 的 操作 系统 以 及 版 本 号 。 


Click on the green buttons that describe your target platform. Only supported platforms will be shown. 


Operating System 
Architecture © 


Version 





Installer Type © 


图 2-18 选择 的 版 本 号 


GO 还 需 注意 最 后 的 Installer Type 选项 , exe (network) 是 在 线 安 装 版 (如 图 2-19 所 示 ) ， 
也 就 是 执行 这 个 安装 程序 需要 联网 。exe (ocal) 是 离线 安装 版 (如 图 2-20 所 示 ) ， 这 个 文件 
比较 大 。 选 完 后 ， 单 击 下 面 的 Download 按钮 就 可 以 下 载 。 
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The base installer is available for d 





load below 


There are 2 patches available. These patches require the base installer to be installed first 


> Base Installer — | 
图 2-19 在 线 安装 程序 











Jownload Installers for Windows 10 x86_64 


The base installer is available for download below 


There are 2 patches available. Thes: ees require the base installer to be installed first 


> Base Installer LEM 


图 2-20 离线 下 载 程序 
(4) 下 载 完 成 后 ， 双 击 运 行文 件 然 后 单 击 OK 按钮 ， 等 进度 条 走 完 ， 就 会 进入 安装 界面 ， 
如 图 2-21 所 示 。 








nVIDIA 





图 2-21 进入 安装 界面 
(5) 之 后 继续 下 一 步 ， 进 入 加 载 界 面 ， 如 图 2-22 所 示 。 
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检查 系统 兼容 性 


D——J.:€P NN) 





图 2-22 进入 加 载 界面 


(6) 检查 系统 兼容 性 ， 如 果 检 测 通过 了 ， 那 么 恭喜 你 ， 你 的 显卡 可 以 安装 CUDA, WR 
没有 通过 , 只 能 抱歉 地 告诉 你 , 只 能 pip uninstall tensorflow-gpu, 然后 执行 pip install tensorflow， 
这 种 情况 是 你 的 电脑 显卡 不 支持 tensorflow-gpu 加 速 。 

CD 之 后 是 软件 许可 协议 ， 如 图 2-23 所 示 ， 单 击 “ 同 意 并 





继续 ”按钮 。 


NVIDIA 软件 许可 协议 


ILE PN 





图 2-23 软件 许可 协议 


(8) 此 时 出 现 安装 选项 ， 如 图 2-24 所 示 。 选 中 “精简 ” 单 选 按 钮 ， 然 后 单 击 “ 下 一 步 ” 
按钮 ， 之 后 等 待 安装 完成 即 可 。 
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nVIDIA 


安装 选项 
O HSE (推荐 》 





图 2-24 选择 安装 模式 
(9) 完成 后 ， 在 环境 变量 检查 PATH 路 径 。 在 计算 机 桌面 上 的 “计算 机 ”图 标 上 右 击 ， 
s 开 属 性 一 高 级 系统 设置 一 环境 变量 ， 发 现 已 经 有 CUDA_PATH fll CUDA PATH V9 0 两 个 
不 境 变 量 。 
CUDA PATH 是 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA9.0, 仅仅 如 此 是 
不 够 的 ， 还 需要 在 环境 变量 里 的 PATH 全 局 变量 中 加 入 bin 和 lib\x64 目录 的 路 径 : 
CUDA SDK PATH = C:\ProgramData\NVIDIA CorporationNCUDA Samples\v9.0 
CUDA LIB PATH — $CUDA PATH$MlibNx64 
CUDA BIN PATH = $CUDA PATH$Vbin 


CUDA SDK BIN PATH = $CUDA SDK_PATH%\bin\win64 
CUDA SDK LIB PATH = $CUDA SDK _PATH%\common\lib\x64 


打开 cmd， 输 入 $ nvec -V 可 以 验证 CUDA 的 安装 是 否 成 功 。 


2.3.2 cuDNN 配置 


对 于 TensorFlow 而 言 ， 真 正 实现 加 速 的 是 cuDNN, cuDNN 调用 的 是 CUDA 显卡 驱动 。 
所 以 最 后 我 们 要 配置 cuDNN 这 个 模块 。 

cuDNN 的 全 称 为 NVIDIA CUDA Deep Neural Network library， 是 NVIDIA 专门 针对 深度 
神经 网 络 (Deep Neural Networks) 中 的 基础 操作 而 设计 的 基于 GPU 的 加 速 库 。cuDNN 为 深 
度 神经 网 络 中 的 标准 流程 提供 了 高 度 优 化 的 实现 方式 , 例如 convolution, pooling, normalization 
以 及 activation layers 的 前 向 以 及 后 向 过 程 。 

cuDNN 只 是 NVIDIA 深度 神经 网 络 软件 开发 包 中 的 其 中 一 种 加 速 库 。 想 了 解 NVIDIA 深 
度 神经 网 络 加 速 库 中 的 其 他 包 , 请 访问 链接 https://developer.nvidia.com pe 

下 面 我 们 说 一 下 正确 安装 cuDNN 的 方式 ， 其 实 按 官方 安装 说 明 进行 安装 就 可 以 了 。 

















E 
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(1) 从 https;//developer.nvidia.com/cudnn 上 下 载 cuDNN 相应 版 本 的 压缩 包 (可 能 需要 注 
册 或 登录 ) 。 

(2) 如 果 这 个 压缩 包 不 是 .tgz 格式 的 ， 把 这 个 压缩 包 重 命名 为 .tgz 格式 。 解 压 当 前 的 .tgz 
格式 的 软件 包 到 系统 中 的 任意 路 径 ， 解 压 后 的 文件 夹 名 为 CUDA。 文 件 夹 中 包含 三 个 子 文件 
夹 : 一 个 为 include; 一 个 为 lib; 还 有 一 个 是 bin。 

GO 复制 上 述 3 个 文件 夹 到 CUDA PATH 指定 的 路 径 下 面 〈 见 图 2-25) 。 检 查 一 下 环 
境 变量 中 是 否 有 lib/x64 文件 夹 的 配置 ， 这 一 步 很 重要 。 





此 电脑 » HEREC) > Program Files » NVIDIA GPU Computing Toolkit > CUDA > v90 


2 ar szam aa 大 小 


WoW a 3 3 
ē 





] CUDA Toolkit Release Notes.txt A. 14 K8 
F) tutava 2017/6/27 WB. 文本 文档 80 KB 
]] version.txt 2017/6/27 B.. XER 1K8 








图 2-25 解压 后 的 cuDNN 文件 


(4) 之 后 仿照 上 一 节 的 代码 对 其 进行 验证 。 这 里 需要 注意 的 是 , 第 一 次 使 用 tensorflow-gpu 
模式 进行 处 理 的 时 候 ， 由 于 需要 对 显卡 进行 甄别 ， 加 载 的 速度 较 慢 ， 同 时 打印 的 内 容 也 较 多 ， 
如 图 2-26 所 示 。 


1018-08-13 08:09:10. MSSL: 1 T: ere Vei thub renzar fon renzorfLow core ccemen rine tou pa, device, cc: 1307] Found device 0 wich properties: 
mme: Geforce GTX 780 T mjor: 5 minor: 0 memory lockfte ie): 1.1105 


25-09-13 08:09:42. 589686: 1 T; Verc gitlab rensuef rai vis Created Tensarflow device (jb: Localhost /replica:0/task:Q/device:GPU:0 with 08 KB memory) -> physical GEU (i 
hello tenscrflon 





图 2-26 第 一 次 加 载 tensorflow-gpu 模式 


2 .4 opencv 类 库 的 下 载 与 安装 


OpenCV 是 专属 Python 的 视觉 程序 包 , OpenCV 的 安装 较为 复杂 ， 从 一 般 的 资料 上 看 ,可 
能 读者 需要 先 安 装 其 他 附属 的 工具 包 , 但 是 实际 上 并 不 需要 如 此 ,对 于 一 般 使 用 者 来 说 , 最 好 
的 方法 就 是 直接 安装 其 他 程序 设计 人 员 编 译 好 的 whl 安装 文件 。 
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COD 首先 下 载 编译 好 的 OpenCV 类 库 安装 文件 ， 下 载 地 址 为 : http://www.lfd.uci.edu/ ~ 
gohlke/pythonlibs。 之 后 使 用 Ctrl+F 组 合 键 ， 以 OpenCV 为 关键 词 进行 搜索 ， 可 以 搜索 到 已 编 
译 好 的 、 以 whl 为 后 缀 的 OpenCV 安装 文件 ， 这 是 pip 使 用 的 安装 文件 ， 如 图 2-27 所 示 。 


OpenCV, a real time computer vision library. 
OPEN python-2.4.13.5-cp27-cp27m-win32.whl 
opencv python-2.4.13.5-cp27-cp27m-win amd64.whl 
hon-3.1.0-cp34-cp34m-win32.whl 
opencv python-3.1.0-cp34-cp34m-win amd64.whl 














hon-3.4.2 «contrib-cp35-cp35m-win32.whl 

opencv python-34.2-contrib-cp35-cp35m-win amd64.whl 
-34.2 «contrib-cp36- -win32 whl 

opencv python-3.4.2+contrib-cp36-cp36m-win amd64.whl 
-3.4.2 «contrib-: -cp37m-win32.whl 
-34.2 «contrib-cp37-cp37m-wi 64 whl 





OPEN python-34.2-cp35-cp35m-win32.whl 


opencv python-3.4.2-cp36-cp36m-win32.whl 





Open python-34.2-cp37-cp37m-win amd64.whl 





图 2-27 选择 OpenCV 的 类 库 包 
(2) 在 这 里 ，whl 文件 为 编译 好 的 Python 类 库 安 装 文件 ， 可 以 根据 读者 安装 的 Python 
版 本 与 OpenCV 的 最 新 版 本 下 载 对 应 的 whl 文件 。 
安装 了 Anaconda 的 读者 ， 可 以 直接 打开 Anaconda Prompt 输入 安装 whl 文件 的 命令 ， 代 
码 如 下 : 
pip install C://XXX/CCC/OpenCV python-3.4.2-cp36-cp36m-win amd64.whl 


后 面 的 地 址 是 下 载 的 whl 文件 在 本 地 计算 机 存储 的 地 址 , 即 通过 命令 行 形式 使 用 pip 安装 
本 地 的 whl 文件 ， 读 者 可 以 自行 选择 安装 地 址 。 


(3) 安装 结束 后 ， 打开 PyCharm， 新 建 一 个 名 为 Opencv_TEST 的 文件 ， 如 图 2-28 所 示 。 


New Python 
















Name: | Opencv TEST| 1 





Kind: IŠ Python file v 


men 








图 2-28 ”新建 OpenCV 的 测试 程序 


输入 如 下 代码 进行 测试 : 
【程序 2-2】 


import cv2 
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jpg = cv2.imread("1.jpg") 
cv2.imshow("test.jpg",jpg) 
cv2.waitKey() 


其 中 “1.jpg” 是 保存 在 程序 文件 同一 目录 下 的 图 片 ， 而 imshow 函数 是 cv2 显示 图 片 的 函 
数 ， 其 作用 是 将 以 矩阵 形式 保存 的 图 片 显 示 出 来 ，waitKey 函数 是 等 待 函 数 ， 只 有 等 待 键盘 触 
及 后 才能 关闭 显示 的 图 片 。 

具体 结果 请 读者 自行 完成 。 


2 Ns Python 常用 类 库 中 的 threading 


除了 前 面 介绍 的 本 书 必 须 使 用 的 两 个 类 库 ThensorFlow 与 OpenCV, Python 还 提供 了 多 种 
多 样 的 用 于 不 同 目的 和 方向 的 类 库 。 
Python 常用 类 库 参 见 表 2-1。 
表 2-1 Python 常用 类 库 
sen 
|o — |mrmumemoryRE o 0 | 


Python 下 标准 的 界面 编程 包 ， 因 此 不 算是 第 三 方 库 


基于 Python 的 图 像 处 理 库 ， 功 能 强大 ， 对 图 形 文件 的 格式 支持 广泛 
用 于 连接 MySQL 数据 库 











基于 Python 的 多 媒体 开发 和 游戏 软件 开发 模块 
将 Python 脚本 转换 为 Windows 上 可 以 独立 运行 的 可 执行 程序 
Windows PE 文件 解析 器 











基于 Python if] HTMUXML 解析 器 ， 简 单 易 用 
其 他 .5 应 该 已 i 算是 一 个 第 三 


K 2-1 给 出 了 Python 中 常用 类 库 的 名 称 和 说 明 ， 到 目前 为 止 ， Python 中 已 经 有 7000 多 个 
可 以 使 用 的 类 库 可 供 计算 机 工程 人 员 以 及 科学 研究 人 员 使 用 。 
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2.5.1 threading 库 的 使 用 


对 于 希望 充分 利用 计算 机 性 能 的 程序 设计 者 来 说 ,多 线程 的 应 用 是 必 不 可 少 的 一 个 重要 技 
能 。 多 线程 类 似 于 使 用 计算 机 的 一 个 核心 执行 多 个 不 同 任务 。 多 线程 的 好 处 如 下 : 


e ”使 用 线程 可 以 把 需要 使 用 大 量 时 间 的 计算 任务 放 到 后 台 去 处 理 。 

e ”减少 资源 占用 ， 加 快 程序 的 运行 速度 。 

e ”在 传统 的 输入 输出 以 及 网 络 收 发 等 普通 操作 上 , 后 台 处 理 可 以 美化 当前 界面 , 增加 界 
面 的 人 性 化 。 


本 节 将 详细 介绍 Python 中 操作 线程 的 模块 : threading， 相 对 于 Python 既 有 的 多 线程 模块 
thread, threading 重 写 了 部 分 API 模块 , 对 thread 进行 了 二 次 封装 ,从 而 大 大 提高 了 执行 效率 。 


2.5.2 threading 模块 中 最 重要 的 Thread 类 


Thread 是 threading 模块 中 最 重要 的 类 之 一 ， 可 以 使 用 它 来 创造 线程 。 其 具体 使 用 方法 是 
创建 一 个 threading.Thread 对 象 , 在 它 的 初始 化 函数 中 将 需要 调用 的 对 象 作为 初始 化 参数 传 入 ， 
具体 代码 如 程序 2-3 所 示 。 


【程序 2-3】 
#coding = utf8 
import threading,time 
count = 0 
class MyThread (threading.Thread) : 
def _init  (self,threadName): 


super(MyThread,self). init (name = threadName) 


def run(self): 
global count 
for i in range(100): 
count = count + 1 


time.sleep(0.3) print(self.getName() , count) 


for i in range(2): 

MyThread("MyThreadName:" + str(i)).start() 

在 上 面 定义 的 MyThread 类 中 ， 重 写 了 从 父 对 象 继承 的 run 方法 ，run 方法 中 ， 将 一 个 全 
局 变量 逐一 增加 ， 在 接 下 来 的 代码 中 ， 创 建 了 5 个 独立 的 对 象 ， 分 别 调用 其 start 方法 ， 最 后 
将 结果 逐一 打印 。 

可 以 看 到 在 程序 中 ,每 个 线程 被 赋予 了 一 个 名 字 ， 然 后 设置 每 隔 0.3 秒 打印 输出 本 线程 的 
计数 ， 即 计数 加 1。 而 count 被 人 为 地 设置 成 全 局 共享 变量 ， 因 此 在 每 个 线程 中 都 可 以 自由 地 
对 其 进行 访问 。 

程序 运行 结果 如 图 2-29 所 示 。 
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XyThreadName:0 2 
XyIhreadName:l 2 
MyThreadName:l 4 
MyThreadName:0 4 
MyThreadName:l 6 
MyThreadName:0 6 
XyThreadName:l 8 
MyThreadName:0 8 


图 2-29 程序 运行 结果 
通过 上 面 的 结果 可 以 看 到 , 每 个 线程 被 起 了 一 个 对 应 的 名 字 , 而 在 运行 的 时 候 , 线程 所 计 


算 的 计数 被 同时 增加 ， 这 样 可 以 证 明 ， 在 程序 运行 过 程 中 ，2 个 线程 同时 对 一 个 数 进行 操作 ， 
并 将 其 结果 进行 打印 。 


1 


Ji 


( 








其 中 的 run 方法 和 start 方法 并 不 是 threading 自 带 的 方法 ， 而 是 从 Python 本 身 的 线程 处 理 模 
Jk Thread 中 继承 来 的 。run 方法 的 作用 是 在 线程 被 启动 以 后 ， 执 行 预先 写 入 的 程序 代码 。 一 
般 而 言 ，run 方法 所 执行 的 内 容 被 称 为 Activity， 而 start 方法 是 用 于 启动 线程 的 方法 。 








2.5.3 threading 中 的 Lock 类 


虽然 线程 可 以 在 程序 的 执行 过 程 中 极 大 地 提高 程序 的 执行 效率 ,但 是 其 带 来 的 影响 却 难以 


忽略 。 例 如 在 上 一 个 程序 中 ,由 于 每 隔 一 定时 间 打印 当前 的 数值 ， 应 该 逐次 打印 的 数据 却 变 成 
了 2 个 相同 的 数值 被 打印 出 来 ， 因 此 需要 一 个 能 够 解决 这 类 问题 的 方案 出 现 。 


Lock 类 是 threading 中 用 于 锁定 当前 线程 的 锁定 类 ， 顾 名 思 义 ， 其 作用 是 对 当前 运行 中 的 


线程 进行 锁定 ， 只 有 被 当前 线程 释放 后 ， 后 续 线程 才 可 以 继续 操作 。 


import threading 
lock = threading.Lock() 
lock.acquire() 


lock.release() 


类 中 主要 代码 如 上 所 示 。acquire 方法 提供 了 确定 对 象 被 锁定 的 标志 ，release 在 对 象 被 当 


前 线程 使 用 完毕 后 将 当前 对 象 释放 。 修 改 后 的 代码 如 程序 2-4 所 示 。 
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【程序 2-4】 
$coding = utf8 
import threading,time,random 


count = 0 
class MyThread (threading.Thread): 


def — init  (self,lock,threadName): 
super(MyThread,self). init (name = threadName) 
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self.lock = lock 


def run(self): 

global count 

self.lock.acquire() 

for i in range(100): 
count = count + 1 
time.sleep(0.3) 
print(self.getName() , count) 

self.lock.release() 


lock = threading.Lock() 
for i in range(2): 
MyThread (lock,"MyThreadName:" + str(i)).start() 


可 以 看 到 Lock 被 传递 给 MyThread, 并 在 run 方法 中 人 为 锁定 当前 的 线程 ， 必 须 等 当前 线 
程 执行 完毕 后 ， 后 续 的 线程 才 可 以 继续 执行 。 程 序 执行 结果 如 图 2-30 所 示 。 


myThreadName : 
mThreadName:0 99 
e:0 100 
101 
102 


1 
1 
myThreadName:1 
myThreadName:1 





图 2-30 程序 运行 结果 


可 以 看 到 ， 其 中 变色 的 部 分 , 线程 2 只 有 等 线程 1 完全 结束 后 ， 才 执行 后 续 的 操作 。 本 程 
序 中 ，Thread1 等 到 Thread0 完全 结束 后 ， 才 执行 自己 的 操作 。 


2.54 threading 中 的 join 类 


join 类 是 threading 中 用 于 堵塞 当前 主线 程 的 类 ， 其 作用 是 阻止 全 部 的 线程 继续 运行 ， 直 
到 被 调用 的 线程 执行 完毕 或 者 超时 。 具 体 代码 如 程序 2-5 所 示 。 


【程序 2-5】 

import threading, time 

def doWaiting(): 
print('start waiting:', time.strftime('$S')) 
time.sleep(3) 
print('stop waiting', time.strftime('$S')) 
threadl = threading.Thread(target = doWaiting) 
threadl.start() 
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time.sleep(1) 坦 确 保 线程 thread1 已 经 启动 
print('start join') 
threadl.join() # 将 一 直 堵塞 ， 直 到 threadi 运行 结束 
print('end join') 

程序 的 运行 结果 如 图 2-31 所 示 。 


start waiting: 29 
start join 


stop waiting 32 


end join 





2-31 程序 运行 结果 


其 中 的 time 方法 设 定 了 当前 的 时 间 ， 当 join 启动 后 ， 堵 塞 了 调用 整体 进程 的 主 进程 ， 而 
只 有 当 被 堵塞 的 进程 执行 完毕 后 ， 后 续 的 进程 才 继 续 执行 。 

除 此 之 外 ， 对 于 线程 的 使 用 ，Python 还 有 很 多 其 他 的 方法 ， 例 如 threading.Event 以 及 
threading.Condition 等 ， 这 些 都 是 在 程序 设计 时 能 够 极 大 地 帮助 程序 设计 人 员 编写 合适 程序 的 
工具 。 限 于 篇 幅 ， 这 里 不 再 一 一 进行 介绍 ， 读 者 可 以 参考 相关 图 书 ， 在 后 续 的 使 用 过 程 中 ， 作 
者 会 带领 读者 了 解 和 掌握 更 多 的 相关 内 容 。 


2.6 本章 小 结 


本 章 介 绍 了 Python 的 基本 安装 和 编译 器 的 使 用 。 在 这 里 推荐 读者 使 用 PyCharm 免费 版 作 
为 Python 编辑 器 ， 这 有 助 于 更 好 地 安排 工程 文件 的 配置 和 程序 的 编写 。 本 章 还 介绍 了 全 书 最 
重要 的 两 个 类 库 : TensorFlow 和 OpenCV 的 下 载 和 安装 。 

同时 ， 本 章 还 介绍 了 最 常用 的 一 些 类 库 ， 这 里 只 是 对 线程 类 做 了 详细 的 介绍 ， 线 程 类 是 
Python 最 为 重要 的 一 个 类 库 ， 在 后 面 的 代码 编写 中 会 频繁 遇 到 。 

本 章 是 Python 最 基础 的 内 容 ， 后 面 的 章节 还 将 以 Python 使 用 为 主 ， 并 且 还 会 介绍 更 多 的 
Python 类 库 ， 和 希望 读者 能 够 掌握 相关 内 容 。 
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seh 2t 
<Python 数 据 处 理 及 可 视 化 > 


前 面 章节 中 对 Python 的 安装 做 了 一 个 基本 的 介绍 ， 并 且 建 议 读者 使 用 PyCharm 免费 版 作 
为 使 用 Python 编写 程序 的 编译 器 。 相 对 于 使 用 控制 台 或 自 带 的 编译 器 ， 可 以 更 加 直观 和 明晰 
化 地 对 所 构建 的 工程 做 出 层次 安排 。 

本 章 将 使 用 Python 对 数据 的 处 理 和 可 视 化 做 出 介绍 ， 主 要 向 读者 介绍 Python 的 使 用 ， 并 
对 第 3 章 中 深度 学 习 使 用 的 一 些 算法 做 出 复写 , 同时 也 向 读者 介绍 第 三 方 类 库 的 使 用 , 对 于 大 
多 数 的 Python 程序 设计 ， 建 议 读 者 使 用 已 有 的 类 库 来 解决 问题 ， 而 不 是 自行 编写 相应 的 代码 。 
这 是 初学 者 非常 易 犯 的 错误 ， 对 于 Python 来 说 ， 大 多 数 的 类 库 都 是 在 底层 使 用 效率 更 高 的 C 
语言 实现 ,并 且 由 经 验 丰富 的 程序 设计 人 员 编 写 , 因 此 不 建议 读者 自行 设计 和 完成 相应 的 程序 。 

“人 生 苦 短 ， 我 用 Python! 编程 复杂 ， 请 用 类 库 ! ” 


h 


从 小 例子 起 步 ， 本 节 将 介绍 NumPy 的 基础 使 用 。 


3.1.1 数据 的 矩阵 化 


对 于 机 器 学 习 来 说 , 数据 是 一 切 的 基础 。 一 切 数据 又 不 是 单 -的 存在 ， 其 构成 往往 由 很 多 
的 特征 值 所 决定 。 表 3-1 是 用 以 计算 回归 分 析 的 房屋 面积 与 价格 对 应 表 , 这 里 加 上 了 每 个 房屋 
中 地 下 室 的 有 无 。 














表 3-1 某 地 区 房屋 面积 与 价格 对 应 表 





价格 / 千 元 面积 /平方 米 卧室 /个 地 下 室 





116 70.8 1 
270 | 150 4 ^ 


3& 3-1 是 数据 的 一 般 表 示 形 式 , 但 是 对 于 机 器 学 习 的 过 程 来 说 ,这 是 不 可 辨识 的 数据 ， 因 
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此 需要 对 其 进行 调整 。 
常用 的 机 器 学 习 表示 形式 为 数据 矩阵 ,， 即 可 以 将 表 3-1 表示 为 一 个 专门 的 矩阵 形式 ， 见 表 
3-2。 


表 3-2 某 地 区 房屋 面积 与 价格 计算 矩阵 











AR 3-2 中 可 以 看 到 ， 一 行 代表 一 个 单独 的 房屋 价格 和 对 应 的 特征 属性 。 第 一 列 是 ID, 
即 每 行 的 标签 。 标 签 是 独一无二 的 ， 一 般 不 会 有 重复 出 现 。 第 二 列 是 价格 ， 一 般 被 称 为 矩阵 的 
目标 。 目 标 可 以 是 单纯 的 数字 ， 也 可 以 是 布尔 变量 或 者 一 个 特定 的 表示 。 表 3-2 中 的 标签 是 房 
屋 的 价格 ， 是 一 个 数字 标签 。 第 2、3、4 列 是 属性 值 ， 也 是 标签 所 对 应 的 特征 值 ， 根 据 此 特征 
值 的 不 同 ， 每 行 所 对 应 的 目标 也 是 有 所 不 同 的 。 

不 同 的 ID 用 于 表示 不 同 的 目标 。 一 般 来 说 ， 机 器 学 习 的 最 终 目 的 就 是 使 用 不 同 的 特征 属 
性 对 目标 进行 区 分 和 计算 。 已 有 的 目标 是 观察 和 记录 的 结果 , 而 机 器 学 习 的 过 程 就 是 创建 一 个 
可 进行 目标 识别 的 模型 的 过 程 。 

建立 模型 的 过 程 称 为 机 器 学 习 的 训练 过 程 ， 其 速度 和 正确 率 主要 取决 于 算法 的 选择 , 而 算 
法 是 目标 和 属性 之 间 建 立 某 种 一 一 对 应 的 关系 的 过 程 ,这 点 在 前 面 介绍 机 器 学 习 过 程 的 时 候 已 
经 有 所 介绍 。 

继续 回 到 表 3-2 的 矩阵 中 。 通 过 观察 可 知 ， 和 矩阵 中 所 包含 的 属性 有 两 种 ， 分 别 是 数值 型 变 
量 和 布尔 型 变量 。 其 中 第 2、3、4 列 是 数值 变量 ， 这 也 是 机 器 学 习 中 最 常 使 用 和 辨识 的 类 型 。 
第 5 列 是 布尔 型 变量 ， 用 以 标识 对 地 下 室 存在 的 判定 。 

这 样 做 的 好 处 在 于 ， 机 器 学 习 在 工作 时 是 根据 采用 的 算法 进行 建 模 的， 算法 的 描述 只 
能 对 数值 型 变量 和 布尔 型 进行 处 理 ， 而 对 于 其 他 类 型 的 变量 处 理 相对 较 少 。 即 使 后 文 有 针 
对 文字 进行 处 理 的 机 器 学 习 模型 ， 其 本 质 也 是 将 文字 转化 成 矩阵 向 量 进 行 处 理 ， 这 一 点 将 
在 后 文 继续 介绍 。 

当 机 器 学 习 建 模 的 最 终 目标 是 求 得 一 个 具体 数值 时 , 即 目标 是 一 个 数字 , 那么 机 器 学 习 建 
模 的 过 程 基 本 上 可 以 被 转化 为 回归 问题 。 差 别 在 于 是 逻辑 回归 还 是 线性 回归 。 

当 目 标 为 布尔 型 变量 时 , 问题 大 多 数 被 称 为 分 类 问题 , 而 常用 的 建 模 方法 是 第 4 章 中 介绍 
的 决策 树 方法 。 一 般 来 说 ， 当 分 类 的 目标 是 两 个 的 时 候 ， 问 题 被 转化 为 二 元 分 类 ; 而 分 类 的 结 
果 多 于 两 个 的 时 候 ， 分 类 称 为 多 元 分 类 。 

许多 情况 下 , 机 器 学 习 建 模 和 算法 的 设计 是 由 程序 设计 和 研究 人 员 所 选择 的 , 而 具体 采用 
何 种 算法 和 模型 也 没有 一 定 的 要 求 。 回归 问题 可 以 被 转化 为 分 类 问题 , 而 分 类 问题 往往 也 可 以 
由 建立 的 回归 模型 解决 。 这 点 没有 特定 的 要 求 。 
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3.12 ”数据 分 析 

对 于 数据 来 说 ， 在 进行 机 器 学 习 建 模 之 前 ， 需 要 对 数据 进行 基本 的 分 析 和 处 理 。 

从 图 3-1 可 以 看 到 ， 对 于 数据 集 来 说 ， 在 进行 数据 分 析 之 前 ， 需 要 知道 很 多 东西 。 首 先 需 
要 知道 的 是 一 个 数据 集 的 数据 多 少 和 每 个 数据 所 拥有 的 属性 个 数 ,对 于 程序 设计 人 员 和 科研 人 
员 来 说 ， 这 些 都 是 简单 的 事 ， 但 是 对 于 机 器 学 习 的 模型 来 说 ， 是 必 不 可 少 的 内 容 。 


J'E 





图 3-1 数据 分 析 的 要 求 


除 此 之 外 ,对 于 数据 集 来 说 , 缺失 值 的 处 理 也 是 一 个 非常 重要 的 操作 。 最 简单 的 处 理 方法 
是 对 有 缺失 值 的 数据 进行 整体 删除 。 问 题 在 于 , 机 器 学 习 的 数据 往往 来 自 于 现实 社会 中 ,因此 
可 能 数据 集中 大 多 数 的 数据 都 会 存在 某 些 特征 属性 缺失 ,解决 的 办 法 往往 是 采用 均值 或 者 与 目 
标 数据 近似 的 数据 特征 属性 蔡 代 。 有些 情况 下 替代 方法 是 可 取 的 , 有 些 情况 下 蔡 代 或 者 采用 均 
值 的 办 法 处 理 缺 失 值 是 不 可 取 的 ， 因 此 要 根据 具体 情况 具体 处 理 。 

首先 从 一 个 小 例子 开始 。 以 表 3-2 的 矩阵 为 例 ， 建 立 一 个 包含 有 数据 集 的 数据 矩阵 ， 之 后 
可 以 利用 不 同 的 方法 对 其 进行 处 理 。 第 一 个 代码 如 程序 3-1 所 示 。 


【程序 3-1】 
import numpy as np 
data = np.mat([[1,200,105,3,False],[2,165,80,2,False], 

[3,184.5,120,2,False], [4,116, 70.8,1, False], [5,270,150, 4, True] ]) 
row = 0 
for line in data: 
row += 1 

print( row ) 
print( data.size) 


程序 3-1 第 一 行 引入 了 Anaconda 自 带 的 一 个 数据 矩阵 化 的 包 。 对 于 NumPy， 读 者 只 需要 
知道 NumPy 系统 是 Python 的 一 种 开源 数值 计算 扩展 。 这 种 工具 可 用 来 存储 和 处 理 大 型 矩阵 ， 
比 Python 自身 的 能 套 列表 (nested list structure) 结构 要 高 效 得 多 。 

第 一 行 代码 的 意思 是 引入 NumPy 将 其 重 命名 为 np 使 用 ， 第 二 行使 用 NumPy 中 的 matO 
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方法 建立 一 个 数据 矩阵 ，row 是 引入 的 计算 行 数 的 变量 ， 使 用 for 循环 将 data 数据 读 出 到 line 
中 ， 每 读 一 行 就 将 row 的 计数 加 一 。data.size 是 计算 数据 集中 全 部 数据 的 数据 量 ， 一 般 与 行 数 
相 除 则 为 列 数 。 最 终 打 印 结果 请 读者 自行 打印 测试 。 
需要 说 明 的 是 ，NumPy 将 数据 转化 成 一 个 矩阵 的 形式 进行 处 理 ， 其 中 具体 的 数据 可 以 通 
过 二 元 的 形式 读 出 ， 如 程序 3-2 所 示 。 
【程序 3-2】 
import numpy as np 


data = np.mat([[1,200,105,3,Fal1se], [2,165,80,2,False], 
[3,184.5,120,2,False], [4,116,70.8,1,False], [5,270,150,4,True]]) 


print( print( data[0,3])) 
print( print( data[0,4] )) 


最 终 打 印 结果 如 下 : 


细心 的 读者 可 能 已 经 注意 到 ，[0.3] 对 应 的 是 矩阵 中 第 1 行 第 4 列 数据 ， 其 数值 为 3， 而 打 
印 结果 为 3.0， 这 个 没什么 问题 。 对 于 [0.4] 数 据 , 矩阵 中 是 False 的 布尔 类 型 ,而 打印 结果 是 0。 
这 点 涉及 Python 的 语言 定义 ， 其 布尔 值 可 以 近似 地 表示 为 0 和 1。 即 读者 需要 注意 : 


True = 1.0 
False = 0 


如 果 需 要 打印 全 部 的 数据 集 ， 即 可 调用 如 下 方法 : 
Print( data) 


将 全 部 的 数据 以 一 个 数据 的 形式 进行 打印 ， 请 读者 自行 打印 测试 。 


3.1.3 ”基于 统计 分 析 的 数据 处 理 
除了 最 基本 的 数据 记录 和 提取 外 , 机 器 学 习 还 需要 知道 一 些 基 本 数据 的 统计 量 , 例如 每 一 
类 型 数据 的 均值 、 方差 以 及 标准 差 等 。 当 然 在 本 书 中 并 不 需要 手动 或 者 使 用 计算 器 去 计算 以 上 
数值 ， NumpPy 提供 了 相关 方法 。 程 序 如 下 所 示 。 
【程序 3-3】 
import numpy as np 


data = np.mat([[1,200,105,3,False],[2,165,80,2,False], 
[3,184.5,120,2,False], [4,116, 70.8, 1, False], [5,270,150, 4, True] ]) 


coll = [] 
for row in data: 
coll.append (row[0,1]) 
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print( np.sum(coll)) 

print( np.mean(coll) ) 

print( np.std(coll)) 

print( np.var(coll)) 

在 上 面 的 代码 中 ，coll 生成 了 一 个 空 的 数据 集 ， 之 后 采用 for 循环 将 数据 集 进行 填充 。 在 
程序 3-3 中 第 一 列 数据 被 填 入 coll 数据 集中 ， 这 也 是 一 个 类 型 数据 的 集合 ， 之 后 依次 计算 数 
据 集 的 和 、 均 值 、 标 准 差 以 及 方差 ， 这 些 对 于 机 器 学 习 模型 的 建立 有 一 定 的 帮助 。 


是 。 A ”图 形 化 数据 处 理 一 一 Matplotlib 包 的 使 用 


对 于 单纯 的 数字 来 说 , 光 从 读数 据 的 角度 并 不 能 直观 反映 数字 的 偏差 和 集中 程度 , 因此 需 
要 采用 另外 一 种 方法 更 好 地 分 析 数 据 。 对 于 数据 来 说 , 没有 什么 能 够 比 用 图 形 来 解释 更 为 形象 
和 直观 的 了 。 


3.2.1 差异 的 可 视 化 


继续 回 到 表 3-2 的 数据 ， 第 二 列 是 各 个 房屋 的 价格 ,其 价格 并 不 相同 ， 因 此 直观 地 查看 价 
格 的 差异 和 偏 移 程度 是 较为 困难 的 一 件 事 。 
研究 数值 差异 和 异常 的 方法 是 绘制 数据 的 分 布 程 度 , 相对 于 合适 的 直线 或 曲线 , 其 差异 程 
度 如 何 ， 以 便 帮助 确定 数据 的 分 布 。 
【程序 3-4】 
import numpy as np 


import pylab 
import scipy.stats as stats 


data = np.mat([[1,200,105,3,False],[2,165,80,2,False], 
[3,184.5,120,2,False],[4,116,70.8,1,False], [5,270,150,4, True]]) 


coll - [] 
for row in data: 
coll.append (row[0,1]) 


stats.probplot (coll,plot-pylab) 
pylab.show() 


结果 如 图 3-2 所 示 。 
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图 3-2 房屋 价格 的 偏离 展示 


程序 3-4 展示 了 一 个 对 价格 的 偏离 程度 的 代码 实现 ，coll 集合 是 价格 的 合集 ，scipy 是 专 
门 的 机 器 学 习 的 数据 处 理 包 , probplot 计算 了 coll 数据 集中 数据 在 正 态 分 布下 的 偏离 程度 。 从 
图 3-2 可 以 看 到 ， 价 格 围绕 一 条 直线 上 下 波动 ， 有 一 定 的 偏离 ， 但 是 偏离 情况 不 太 明 显 。 

HPR (为 0.9579) 指 的 是 数据 拟 合 的 相关 性 ， 一 般 0.95 以 上 就 可 以 认为 数据 拟 合 程度 比较 
好 。 


3.2.2 ”坐标 图 的 展示 


通过 上 文 第 一 个 对 回归 的 可 视 化 处 理 可 以 看 到 ， 可 视 化 能 够 让 数据 更 加 直观 地 展现 出 来 ， 
同时 可 以 对 数据 的 误差 表现 得 更 为 直观 。 

图 3-3 展示 了 一 个 横向 坐标 图 ， 用 以 展示 不 同类 别 所 占 的 比重 。 系列 1、2、3 可 以 分 别 代 
表 不 同 的 属性 ， 类 别 1-6 可 以 看 作 6 个 不 同 的 特例 。 通 过 坐标 图 的 描述 可 以 非常 直观 地 看 到 ， 
不 同 的 类 别 中 不 同 的 属性 所 占 的 比重 如 何 。 














图 3-3 横向 坐标 图 
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可 以 看 到 , 一 个 坐标 图 能 够 对 数据 进行 展示 , 其 最 基本 的 要 求 是 可 以 通过 不 同 的 行 或 者 列 
表现 出 数据 的 某 些 具体 值 ， 不 同 的 标签 使 用 不 同 的 颜色 和 样式 以 展示 不 同 的 系统 关系 。 程 序 
3-5 展示 对 于 不 同 目标 的 数据 提取 不 同 的 行进 行 显示 的 代码 。 


【程序 3-5】 
import pandas as pd 
import matplotlib.pyplot as plot 
rocksVMines = pd.DataFrame ([[1,200,105,3,False], [2,165,80,2, False], 


[3,184.5,120,2, False], [4,116,70.8,1, False], [5,270,150, 4, True]]) 


dataRowl = rocksVMines.iloc[1,0:3] 
dataRow2 = rocksVMines.iloc[2,0:3] 
plot.scatter(dataRowl, dataRow2) 
plot.xlabel("Attributel") 
plot.ylabel(("Attribute2")) 
plot.show() 


dataRow3 = rocksVMines.iloc[3,0:3] 
plot.scatter(dataRow2, dataRow3) 
plot.xlabel("Attribute2") 
plot.ylabel("Attribute3") 
plot.show() 


从 图 3-4 可 以 看 出 , 通过 选 定 不 同 目标 行 中 不 同 的 属性 ,可 以 对 其 进行 较 好 的 衡量 并 比较 两 行 
之 间 的 属性 关系 以 及 属性 之 间 的 相关 性 。 不 同 的 目标 , 即使 属性 千差万别 , 也 可 以 构建 相互 关系 图 。 


BB Foure 1 - o x 
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图 3-4 不 同 目标 属性 之 间 的 关系 


顺带 说 一 句 , 本 例 中 采用 的 数据 较 少 , 一 般 随 着 数据 增加 , 属性 之 间 会 呈现 一 种 正 态 分 布 ， 
这 一 点 可 以 请 读者 自行 验证 。 

















p 程序 3-5 可 以 得 到 两 幅 图 ， 第 一 幅 图 请 读者 自行 查看 ， 建 议 与 第 一 幅 进 行 比较 。 | 
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3.23 ” 玩 个 大 的 数据 集 


现在 开始 玩 个 大 的 数据 集 。 

对 于 大 规模 数据 来 说 , 涉及 的 目标 比较 多 , 并 且 属 性 特征 值 比较 多 , 对 其 查看 会 是 非常 复 
杂 的 。 因 此, 为 了 更 好 地 理解 和 掌握 大 数据 的 分 布 , 将 其 转化 成 可 视 性 较 强 的 图 形 显然 是 更 好 
的 做 法 。 

前 面 对 小 数据 集 进 行 了 图 形 化 查阅 ， 现 在 对 现实 中 的 数据 进行 处 理 。 

数据 来 源 于 真实 的 信用 贷款 数据 ， 从 50000 个 数据 记录 中 随机 选取 200 个 数据 进行 计算 ， 
而 每 个 数据 又 有 较 多 的 属性 值 。 大 多 数 情况 下 ,数据 是 以 csv 格式 进行 存储 的 ，pandas 包 同 样 
提供 了 相关 读 取 程序 。 具 体 代 码 见 程序 3-6。 

【程序 3-6】 
import pandas as pd 
import matplotlib.pyplot as plot 


filePath = ("c://dataTest.csv") 
dataFile = pd.read csv(filePath,header-None, prefix-"V") 





dataRowl = dataFile.iloc[100,1:300] 
dataRow2 = dataFile.iloc[101,1:300] 
plot.scatter(dataRowl, dataRow2) 
plot.xlabel("Attributel") 
plot.ylabel("Attribute2") 
plot.show() 


从 程序 3-6 可 以 看 出 ， 首 先 使 用 filePath 创建 了 一 个 文件 路 径 ， 用 以 建立 数据 地 址 。 之 后 
使 用 pandas 自 带 的 read csv 读 取 csv 格式 的 文件 。dataFile 是 读 取 的 数据 集 ， 之 后 使 用 iloc 方 
法 获取 其 中 行 的 属性 数据 ，scattle 是 做 出 分 散 图 的 方法 ， 对 属性 进行 画图 。 最 终结 果 如 图 3-5 
所 示 。 





3-5 ”大 数据 集中 不 同 目标 属性 之 间 的 关系 
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这 样 可 以 看 出 ， 数 据 在 (0.0) 的 位 置 有 较 大 的 集合 ， 表 明 属 性 在 此 位 置 的 偏离 程度 较 少 ， 
而 几 个 特定 点 是 偏离 程度 较 大 的 点 。 这 可 以 帮助 读者 对 离 群 值 进 行 分 析 。 








E: 程序 3-6 出 现 了 两 幅 图 ， 第 一 个 图 请 读者 自行 分 析 。 | 











下 面 继续 对 数据 集 进行 分 析 。 程序 3-5 和 程序 3-6 让 读者 看 到 了 对 数据 同一 行 中 不 同 的 属 
性 进行 处 理 和 现实 的 方法 。 如 果 是 要 对 不 同 目标 行 的 同一 种 属性 进行 分 析 , 那么 要 如 何 做 呢 ? 
请 读者 参阅 程序 3-7。 
【程序 3-7】 


import pandas as pd 

import matplotlib.pyplot as plot 

filePath = ("c://dataTest.csv") 

dataFile = pd.read csv(filePath,header-None, prefix-"V") 





target - [] 
for i in range(200): 
if dataFile.iat[i,10] >= 7: 
target.append(1.0) 
else: 
target.append (0.0) 


dataRow = dataFile.iloc[0:200,10] 
plot.scatter(dataRow, target) 
plot.xlabel ("Attribute") 
plot.ylabel ("Target") 

plot.show() 


程序 3-7 对 数据 进行 处 理 ， 提 取 了 200 行 数 据 中 的 第 10 个 属性 ， 并 对 其 进行 判定 ， 单 纯 
的 判定 规则 是 根据 均值 对 其 区 分 的 ， 之 后 计算 判定 结果 ， 如 图 3-6 所 示 。 


pma 


Too +e oMr ] 





图 3-6 大 数据 集中 不 同行 相同 属性 之 间 的 关系 
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通过 图 3-6 可 以 看 出 ， 属 性 被 人 为 地 分 成 两 部 分 ， 数 据 集合 的 程度 也 显示 了 偏离 程度 。 如 
果 下 一 步 需 要 对 属性 的 离散 情况 进行 反映 ， 则 应 该 使 用 程序 3-8。 


【程序 3-8】 
import pandas as pd 
import matplotlib.pyplot as plot 
filePath = ("c://dataTest.csv") 
dataFile — pd.read csv(filePath,header-None, prefix-"V") 


target = [] 
for i in range(200): 
if dataFile.iat[i,10] >= 7: 
target.append(1.0 + uniform(-0.3, 0.3)) 
else: 
target.append(0.0 + uniform(-0.3, 0.3)) 
dataRow = dataFile.iloc[0:200,10] 
plot.scatter(dataRow, target, alpha-0.5, s-100) 
plot.xlabel ("Attribute") 
plot.ylabel ("Target") 
plot.show() 


在 此 段 程序 中 ， 离 散 的 数据 被 人 为 地 加 入 了 离散 变量 ， 有 具体 显示 结果 请 读者 自行 完成 。 











E 读者 可 以 对 程序 的 必 性 做 出 诸多 的 抽取 ， 并 党 试 使 用 更 多 的 方法 和 变量 进行 处 理 。 | 








可 .二 深度 学 习 理论 方法 “相似 度 计算 


我 们 从 上 一 节 的 内 容 可 以 得 知 , 不 同 目标 行 之 间 由 于 其 属性 的 不 同 , 画 出 的 散 点 图 也 是 千 
差 万 别 的， 而 对 于 机 器 学 习 来 说 则 需要 一 个 统一 的 度量 ， 即 需要 对 其 相似 度 进行 计算 。 

相似 度 的 计算 方法 很 多 ， 这 里 选用 最 常用 的 两 种 ， 即 欧 几 里 得 相似 度 和 余弦 相似 度 计算 。 
如 果 读 者 对 此 不 感 兴趣 ， 可 以 跳 过 本 节 继 续 学 习 。 


3.3.00. 基于 欧 几 里 得 距离 的 相似 度 计算 


欧 几 里 得 距离 《Euclidean distance) 是 常用 的 计算 距离 的 公式 ， 用 来 表示 三 维 空间 中 两 个 
点 的 真实 距离 。 

欧 几 里 得 相似 度 计算 是 一 种 基于 用 户 之 间 直 线 距离 的 计算 方式 。 在 相似 度 计算 中 , 不 同 的 
物品 或 者 用 户 可 以 将 其 定义 为 不 同 的 坐标 点 , 而 特定 目标 定位 坐标 原点 。 使 用 欧 几 里 得 距离 计 
算 两 个 点 之 间 的 绝对 距离 。 欧 几 里 得 公式 距离 如 公式 3-1 所 示 。 
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【公式 3-1】 


d- JG, 7x) +O =y} 


从 公式 3-1 可 以 看 到 ,作为 计算 结果 的 欧式 值 显示 的 是 两 点 之 间 的 直线 距离 ,该 值 的 大 小 
表示 两 个 物品 或 者 用 户 差异 性 的 大 小 , 即 用 户 的 相似 性 如 何如 果 两 个 物品 或 者 用 户 距 离 越 大 ， 
那么 相似 度 越 小 ， 反 之 ， 距 离 越 小 则 相似 度 越 大 。 








dm 由 于 在 欧 几 里 得 相似 度 计算 中 最 终 数 值 的 大 小 与 相似 度 成 反比 ， | 
C 欧 几 里 得 距离 的 倒数 作为 相似 度 值 ， 即 d+1 作为 近似 值 。 








请 参看 一 个 常用 的 用 户 -物品 推荐 评分 表 的 例子 ( 见 表 3-3〉。 
表 3-3 ”用户 与 物品 评分 对 应 表 





表 3-3 是 3 个 用 户 对 物品 的 打分 表 ，, 如 果 需 要 计算 用 户 1 和 其 他 用 户 之 间 的 相似 度 ,通过 
欧 几 里 得 距离 公式 可 以 得 出 : 


d, - J0- +0 -2 +(3-3): «(0-2) ~1.414 
从 结果 可 以 得 知 ， 用 户 1 和 用 户 2 的 相似 度 为 1.414。 用 户 1 和 用 户 3 的 相似 度 是 : 
d, - J1-2y (0-2) « G-1? «0. —1y = 2.287 
dz 分 值 小 于 dis 的 分 值 ， 因 此 可 以 得 到 用 户 2 更 加 相似 于 用 户 1 (距离 越 小 ， 相 似 度 越 大 ) 。 


3.82 ”基于 余弦 角度 的 相似 度 计算 


与 欧 几 里 得 距离 类 似 , 余弦 相似 度 也 将 特定 目标 (物品 或 者 用 户 ) 作为 坐标 上 的 点 , 但 不 
是 坐标 原点 ， 是 与 特定 的 被 计算 目标 进行 夹 角 计算 。 具 体 如 图 3-7 所 示 。 





图 3-7 余弦 相似 度 示 例 
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从 图 3-7 可 以 很 明显 地 看 出 ， 两 条 直线 分 别 从 坐标 原点 出 发 ， 引 出 一 定 的 角度 。 如 果 两 个 
目标 较为 相似 ,那么 其 线段 形成 的 夹 角 较 小 。 如 果 两 个 用 户 不 相近 ,那么 两 条 射线 形成 的 夹 角 
较 大 。 因 此 在 使 用 余弦 度量 的 相似 度 计 算 中 ,可 以 用 夹 角 的 大 小 来 反映 目标 之 间 的 相似 性 。 余 
弦 相 似 度 的 计算 如 公式 3-2 所 示 。 

【公式 3-2】 

indc Mx») 
B3 

余弦 值 一 般 为 [-1,1]， 这 个 值 的 大 小 与 余弦 夹 角 的 大 小 成 正比 。 如 果 用 余弦 相似 度 计算 表 

3-3 中 用 户 1 和 用 户 2 之 间 的 相似 性 ， 结 果 如 下 : 


1xl+1x2+3x3+1x2 14 
dp = = 40.789 
Jera BEEE J2 x418 
用 户 1 和 用 户 3 的 相似 性 如 下 : 


1x2+1x2+3xl+lxl 8 
Sn ee Y Y 
BO +P+3+PxvV22+22+P2+P V2xV0 
从 计算 可 得 ， 相 对 于 用 户 3， 用 户 2 与 用 户 1 更 为 相似 〈 两 个 目标 越 相 似 ， 其 线段 形成 的 
夹 角 越 小 ) 。 
3.8.8 ” 欧 几 里 得 相似 度 与 余弦 相似 度 的 比较 


欧 几 里 得 相似 度 是 以 目标 绝对 距离 作为 衡量 的 标准 , 而 余弦 相似 度 是 以 目标 差异 的 大 小 作 
为 衡量 标准 的 ， 其 表述 如 图 3-8 所 示 。 








~ dist(a.b) 








图 3-8 欧 几 里 得 相似 度 与 余弦 相似 度 


从 图 3-8 中 可 以 看 到 , 欧 几 里 得 相似 度 注重 目标 之 间 的 差异 ,与 目标 在 空间 中 的 位 置 直 接 
相关 。 而 余弦 相似 度 是 不 同 目标 在 空间 中 的 夹 角 ， 更 加 表现 在 前 进 趋势 上 的 差异 。 
欧 几 里 得 相似 度 和 余弦 相似 度 具有 不 同 的 计算 方法 和 描述 特征 。 一 般 来 说 欧 几 里 得 相似 度 
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用 以 表现 不 同 目标 的 绝对 差异 性 ,从 而 分 析 目标 之 间 的 相似 度 与 差异 情况 。 而 余弦 相似 度 更 多 
的 是 对 目标 从 方向 趋势 上 区 分 ， 对 特定 坐标 数字 不 敏感 。 








dm 举例 来 说 ， 两 个 目标 在 不 同 的 两 个 用 户 之 间 的 评分 分 别 是 (1,1) 和 (5,5) ， 这 两 个 评分 
在 表述 上 是 一 样 ,但 是 在 分 析 用 户 相似 度 时 ， 更 多 的 是 使 用 欧 几 里 得 相似 度 而 不 是 余弦 相 
| 似 度 。 余 弦 相 似 度 更 好 地 区 分 了 用 户 分 离 状态 。 








2.7. 数据 的 统计 学 可 视 化 展示 


在 3.3 节 中 ， 读 者 对 数据 〈 特 别 是 大 数据 ) 的 处 理 有 了 一 个 基本 的 认识 ， 通 过 数据 的 可 视 
化 处 理 , 对 数据 的 基本 属性 和 分 布 有 了 较为 直观 的 理解 。 但 是 对 于 机 器 学 习 来 说 , 这 里 的 数据 
需要 更 多 的 分 析 处 理 ， 需 要 用 到 更 为 精准 和 科学 的 统计 学 分 析 。 

本 节 将 使 用 统计 学 分 析 对 数据 进行 处 理 。 








3.4.1 数据 的 四 分 位 


四 分 位 数 〈Quartile) 是 统计 学 中 分 位 数 的 一 种 ， 即 把 所 有 数据 由 小 到 大 排列 并 分 成 四 等 
份 ， 处 于 三 个 分 割 点 位 置 的 数据 就 是 四 分 位 数 。 
e 第 一 四 分 位 数 (Q1) 又 称 “ 下 四 分 位 数 ”， 等 于 该 样本 中 所 有 数据 由 小 到 大 排列 后 
第 25% 的 数据 。 
e 第 二 四 分 位 数 (Q2) 又 称 “ 中 位 数 ”, 等 于 该 样本 中 所 有 数据 由 小 到 大 排列 后 第 50% 
数据 。 
e 第 三 四 分 位 数 (Q3) 又 称 “ 上 四 分 位 数 ”， 等 于 该 样本 中 所 有 数据 由 小 到 大 排列 后 
第 75% 的 数据 。 
第 三 四 分 位 数 与 第 一 四 分 位 数 的 差距 又 称 四 分 位 距 (InterQuartile Range, IQR) 。 
首先 要 确定 四 分 位 数 的 位 置 ， 若 用 n 表示 项 数 ， 则 分 位 数 的 位 置 分 别 为 : 
€ QIl 的 位 置 = (n+1) x 0.25 
© Q2 的 位 置 = (n+1) x 0.5 
© Q3 的 位 置 = (n+1) x 0.75 


使 用 图 形 表 示 ， 如 图 3-9 所 示 。 
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0.0.0 


dd 


3, 
1, 


制 了 一 个 箱 体 结构 ， 即 根据 
线 图 反映 出 一 组 数据 的 特 





绘 
形 。 这 种 直观 的 箱 


16, 42, 3. 29, 0. 36, 27. 2 





). 38, 1, 5, 1, 1, 1, 35. 4025, 116. 5803: 
42. 05, 10. 42, 5. 33, 9. 23, 78. 89, 1 


, 9. 61, 30. 59, 226, 23. 11, 8. 51, 0. 6 


., 407, 14, 0, 0, 3, 0, 405, 36, 0, 10, 0, 0, 
, 0, 0, 0, 174, 0, 0, 0, 4, 1, 0, 6, 5645, 1212, 1060, 0, 37, 0 























首先 回顾 一 下 本 例 中 的 数据 集 。 本 数据 集 来 源 是 真实 世界 中 某 借 贷 机 构 对 申请 小 额 贷 


款 的 贷款 人 的 背景 调查 ， 目 的 是 根据 不 同 借款 人 的 条 件 ， 分 析 判 断 借款 人 能 否 按时 归还 贷 


款 。 一 般 来 说 ， 借 款 人 能 否 按时 归还 贷款 是 所 有 借贷 最 为 头疼 的 问题 ， 其 中 的 影响 因素 很 
多 ， 判 别 相 对 麻烦 ， 判 断 错 误 后 果 也 较为 严重 。 通 过 机 器 学 习 ， 可 以 较为 轻松 地 将 其 转化 
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小 贷 〈 小 额 贷款 ) 数据 集 


3-10 


42 


第 3 章 Python 数据 处 理 及 可 视 化 


这 个 数据 集 的 形式 是 每 一 行为 一 个 单独 的 目标 行 , 使 用 逗号 分 隔 不 同 的 属性 ; 每 一 列 是 不 
同 的 属性 特征 。 不 同 列 的 含义 在 现实 中 至 关 重 要 ， 这 里 不 做 解释 。 具 体 代 码 如 程序 3-9 所 示 。 


【程序 3-9】 
from pylab import * 
import pandas as pd 
import matplotlib.pyplot as plot 
filePath ("c://dataTest.csv") 


dataFile pd.read csv(filePath,header-None, prefix-"V") 


print (dataFile.head()) 
print((dataFile.tail()) 


summary = dataFile.describe() 


print (summary) 


array = dataFile.iloc[:,10:16].values 
boxplot (array) 

plot.xlabel ("Attribute") 
plot.ylabel(("Score")) 





show() 
首先 来 看 数据 的 结果 : 

vo Vi v2 v3 V4 V5 V6 v7 v8 WE] ess V1129 V 
0 20001 6:15 7.06 5.274 2.6} 0-00 4.36 0.00. 5:76 3.83 sas F 
3 -20002 6:53 6-15 9-85, 4303 0210. 1.32 0-6% 6524 T06 <s 6 
2 20003: 8:22 3:23 T.69 0.47 0102 2-89 0 O03 T0.:05 8.76 ~ il 
3 20004 6.79 4.99: 1.50. 2.85 5:53: 1-89 5.41 6-79 65419 ne. 3 
4 20005 -1.00 -1.00 -1.00 -1-00 -1-00 -1.00 =1.00 —=1.00: =1.00 7277 s 


V1130 V1131 V1132 V1133 V1134 V1135 V1136 V1137 V1138 


0 6 "m 2 5 7 3 6 8 12 
F 7 15 2 6 了 1 8 Hi 24 
2 8 E 1 1 8 8 1 T 6 
3 6 20 I 6 8 1 6 5 12 
4 8 m 1 8 8 m 8 8 i 


[5 rows x 1139 columns] 

vo vi v2 v3 v4 v5 v6 vi v8 Voie Ñ 
196. 20197 3:59 5.63 &.21 5.24 1.88. 1-65 4.74 3:13 T-19 scz 
197 20198 7.27 5.31 9.35. 2:77 0.900 1:37 0.74 5.71 4.64 z.a 
198: 20199. 6.187 5.05 6.43 6.050 1793. 2:581 3.75 732 4.19 a 
199 20200 6.12 7.45 1.05 1.03 0.16 1.44 0.32 6.49 10.79 -= 
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200 20201 5.60 6.29 6.11 2.64 0.11 4.08 2.44 7.04 





Ou. nag 


WV1129 v1130 v1131 v1132 v1133 V1134 V1135 v1136 V1137 v1138 


196 
197 
198 
2199 
200 


6 6 


Mo o0 
- on 


uU PP PP PP PP 
PN NB PP 


[5 rows x 1139 columns] 


count 
mean 
std 
min 
258 
50% 
75% 
max 


count 
mean 
std 
min 
25% 
50% 
75% 
max 


vo 
201.000000 
20101.000000 
58.167861 
20001.000000 
20051.000000 
20101.000000 
20151.000000 
20201.000000 


v5 
201.000000 
0.907662 
1.360489 
-1.000000 
0.020000 
0.300000 
1.390000 
8.480000 


V1129 


count 201.000000 


mean 
std 
min 
258 
50% 
75% 


max 


6.054726 
1.934422 
1.000000 
6.000000 
7.000000 
7.000000 
8.000000 


V1135 


V1 

201.000000 
5.266219 

2.273933 
-1.000000 
4.130000 
5.240000 
6.590000 
13.150000 


v6 
201.000000 
2.680149 
2.292231 
-1.000000 
1.270000 
2.030000 
3.710000 
12.970000 


V1130 
201.000000 
6.039801 
2.314824 
1.000000 
5.000000 
7.000000 
8.000000 
8.000000 


V1136 


count 201.000000 201.000000 


mean 


10.960199 


5.631841 


Mo o [| 0 
Cc - - c c 


v2 
201.000000 
6.447015 
2.443789 
-1.000000 
5.190000 
6.410000 
7.790000 
13.960000 


VT 
201.000000 
2.649254 
2.912611 
-1.000000 
0.320000 
1.870000 
4.140000 
18.850000 


V1131 
201.000000 
7.156219 
9.145232 
1.000000 
1.000000 
1.000000 
15.000000 
35.000000 


V1137 
201.000000 
5.572139 


S 
24 


M oO Uo 


V3 
201.000000 
6.156020 
2.967566 
-1.000000 
4.660000 
6.000000 
7.640000 
16.620000 


v8 
201.000000 
5.149055 
2.965096 
-1.000000 
3.260000 
4.870000 
6.760000 
15.520000 


V1132 
201.000000 
1.353234 
0.836422 
1.000000 
1.000000 
1.000000 
2.000000 
7.000000 


V1138 
201.000000 
16.776119 


28 
14 


Mo oco o4 


va N 
201.000000 
3.319303 
3.134570 
-1.000000 
1.200000 
2.830000 
4.570000 
28.440000 


v9 ... 
201.000000 ... 
5.532736 D 
2.763270 I. 
-1.000000 ... 
3.720000 ... 
5.540000 ... 
7.400000 ... 
13.490000 ... 


V1133 V1134 \ 


201.000000 201.000000 


4.830846 
2.161306 
1.000000 
3.000000 
6.000000 
7.000000 
8.000000 


7.131343 
0.444368 
7.000000 
7.000000 
8.000000 
8.000000 
8.000000 
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Std 9.851315 2.510733 2-517145 8.507916 
min 1.000000 1.000000 1.000000 1.000000 
255 3.000000 3.000000 4.000000 11.000000 
50% 8.000000 7.000000 7.000000 17.000000 


75% 18.000000 8.000000 7.000000 23.000000 
max 36.000000 8.000000 8.000000 33.000000 


这 一 部 分 打印 出 来 的 是 计算 后 的 数据 头 和 尾部 ， 为 了 节省 空间 ， 我 们 只 选择 了 前 6 个 
和 尾部 的 6 个 数据 。 第 一 列 是 数据 的 编号 ， 对 数据 目标 行进 行 区 分 ， 其 后 是 每 个 不 同 的 目 
标 行 的 属性 。 

dataFile.describe() 方 法 对 数据 进行 统计 学 估计 ，count、mean、std、min 分 别 求 得 每 列 数据 
的 计数 、 均 值 、 方 差 以 及 最 小 值 等 。 最 后 的 几 个 百分比 是 求 得 四 分 位 的 数据 ， 具 体 图 形 如 图 
3-11 所 示 。 这 里 的 6 列 数据 是 从 整个 数据 集中 随机 选取 的 6 列 做 的 数据 描述 结果 ， 即 对 随机 
选择 的 6 列 数据 做 的 四 分 位 分 布 计 算 ; 竖 的 每 个 四 分 位 图 是 随机 选择 的 每 个 数据 列 做 的 数据 可 
视 化 描述 ， 主 要 是 用 来 展示 离 群 点 。 


too +r oBer | 








图 3-11 小 贷 数据 集 的 四 分 位 显示 


在 程序 中 选择 了 第 11~16 列 的 数据 作为 分 析 数 据 集 ， 从 图 3-11 可 以 看 出 ， 不 同 的 数据 列 
做 出 的 箱 体 四 分 位 图 也 是 不 同 的 。 部 分 不 在 点 框 体内 的 数据 被 称 为 离 群 值 , 一 般 被 视 作 特异 点 
加 以 处 理 。 











E7 读者 可 以 多 选择 不 同 的 目标 行 和 属性 点 进行 分 析 。 


四 分 位 图 是 一 个 以 更 好 、 更 直观 的 方式 来 识别 数据 中 异常 值 的 方法 , 与 数据 处 理 的 其 他 方 
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式 相 比 ， 能 够 更 有 效 地 让 分 析 人 员 判 断 离 群 值 。 


3.4.3 数据 的 标准 化 

继续 对 数据 进行 分 析 。 读 者 在 进行 数据 选择 的 时 候 可 能 会 遇 到 某 一 列 的 数值 过 大 或 者 过 小 
的 问题 ， 即 数据 的 显示 若 超出 其 他 数据 部 分 较 大 时 则 会 产生 数据 图 形 失真 的 问题 ， 如 图 3-12 
所 示 。 


igure 1 


|o00--OBWv 




















3-12. 数据 超 预 期 的 四 分 位 图 


对 其 来 说 , 需要 一 个 能 够 处 理 数据 , 使 其 具有 共同 计算 均值 的 方法 , 即 数据 的 标准 化 处 理 。 

顾名思义 ， 数 据 的 标准 化 是 将 数据 根据 自身 一 定 比例 进行 处 理 ， 落 入 一 个 小 的 特定 区 间 ， 
一 般 为 (-1.D)。 这 样 做 的 目的 是 去 除数 据 的 单位 限制 ， 将 其 转化 为 无 量 纲 的 纯 数 值 ， 使 得 不 同 
单位 或 量 级 的 指标 能 够 进行 比较 和 加 权 ， 其 中 最 常用 的 就 是 0-1 标准 化 和 Z-score 标准 化 。 


1. 0-1 标准 化 ( 0-1 normalization ) 


0-1 标准 化 也 叫 离 差 标准 化 ， 是 对 原始 数据 的 线性 变换 ， 使 结果 落 到 [0.1] 区 间 ， 转 换 函 数 
如 下 : 
X — min 
X = 一 一 一 一 一 
max- min 
其 中 ，max 为 样本 数据 的 最 大 值 ，min 为 样本 数据 的 最 小 值 。 这 种 方法 有 一 个 缺陷 ， 就 是 
当 有 新 数据 加 入 时 ， 可 能 导致 max 和 min 的 变化 ， 需 要 重新 定义 。 


2. Z-score 标准 化 ( zero-mean normalization ) 


Z-score 标准 化 也 叫 标准 差 标 准 化， 经 过 处 理 的 数据 符合 标准 正 态 分 布 ， 即 均值 为 0， 标 
准 差 为 1， 其 转化 函数 为 : 
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Hp, u 为 所 有 样本 数据 的 均值 ，o 为 所 有 样本 数据 的 标准 差 。 
一 般 情 况 下 ， 通 过 数据 的 标准 化 处 理 后 ， 数 据 最 终 落 在 (-1,1) 的 概率 为 99.79%， 在 (-1.1) 之 
外 的 数据 被 设置 成 -1 和 1， 以 便 处 理 。 


【程序 3-10】 
from pylab import * 
import pandas as pd 
import matplotlib.pyplot as plot 
filePath = ("c://dataTest.csv") 
dataFile = pd.read csv(filePath,header-None, prefix-"V") 


summary — dataFile.describe() 
dataFileNormalized = dataFile.iloc[:,1:6] 
for i in range(5): 

mean = summary.iloc[l, i] 

sd = summary.iloc[2, i] 


dataFileNormalized.iloc[:,i:(i + 1)] = (dataFileNormalized.iloc[:,i:(i + 1)] 
- mean) / sd 

array = dataFileNormalized.values 

boxplot (array) 

plot.xlabel ("Attribute") 

plot.ylabel(("Score")) 

show() 


从 代码 中 可 以 看 到 数据 被 处 理 为 标准 差 标准 化 的 方法 。dataFileNormalized 被 重新 计算 并 
定义 ， 大 数值 被 人 为 限定 在 (-1,1)， 请 读者 自行 运行 验证 。 








a 程序 3-10 中 所 使 用 的 数据 被 人 为 修改 ， 请 读者 自行 修改 验证 ， 这 里 作者 不 再 进行 演示 。 
i 此 外 ， 读 者 可 以 对 数据 进行 处 理 ， 验 证 更 多 的 标准 化 方法 。 











3.4.4 数据 的 平行 化 处 理 


从 3.4.2 小 节 可 以 看 到 ， 对 于 每 种 单独 的 数据 属性 来 说 ， 可 以 通过 数据 的 四 分 位 法 进行 处 
E、 查 找 和 寻找 离 群 值 ， 从 而 对 其 进行 分 析 处 理 。 

对 于 属性 之 间 的 横向 比较 ， 即 每 个 目标 行 属性 之 间 的 比较 , 使 用 四 分 位 法 则 较 难 判断 。 为 
了 描述 和 表现 每 一 个 不 同 目标 行 之 间 的 数据 差异 和 不 同 ， 需 要 另外 一 种 处 理 和 展示 方法 。 

平行 坐标 (Parallel Coordinates) 是 一 种 通常 的 可 视 化 方法 ， 用 于 对 高 维 几 何 和 多 元 数据 

的 可 视 化 。 平 行 坐标 为 了 表示 在 高 维 空间 的 一 个 点 集 ， 在 Y 条 平行 线 的 背景 下 〈 一 般 这 N AR 
线 都 竖 直 且 等 距 ), 一 个 在 高 维 空间 的 点 被 表示 为 一 条 拐点 在 N 条 平行 坐标 轴 的 折线 , 在 第 天 
个 坐标 轴 上 的 位 置 就 表示 这 个 点 在 第 天 维 的 值 。 


nc 
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平行 坐标 是 信息 可 视 化 的 一 种 重要 技术 。 为 了 克服 传统 的 笛 卡 儿 直角 坐标 系 容易 耗 尽 空 
间 、 难以 表达 三 维 以 上 数据 的 问题 , 平行 坐标 将 高 维 数据 的 各 个 变量 用 一 系列 相互 平行 的 坐标 
MRR, 变量 值 对 应 轴 上 位 置 。 为 了 反映 变化 趋势 和 各 个 变量 间 的 相互 关系 ,往往 将 描述 不 同 
变量 的 各 点 连接 成 折线 。 所 以 平行 坐标 图 的 实质 是 将 欧式 空间 的 一 个 点 Xi(xil,xi2,…xim) Bk 


射 到 二 维 平面 上 的 一 条 曲线 。 
平行 坐标 图 可 以 表示 超 高 维 数据 。 平行 坐标 的 一 个 显著 优点 是 具有 良好 的 数学 基础 ， 其 射 


影 几 何 解释 和 对 偶 特性 使 它 很 适合 用 于 可 视 化 数据 分 析 。 
【程序 3-11】 


from pylab import * 

import pandas as pd 

import matplotlib.pyplot as plot 

filePath = ("c://dataTest.csv") 

dataFile — pd.read csv(filePath,header-None, prefix-"V") 


summary — dataFile.describe() 
minRings - -1 

maxRings = 99 

nrows = 10 

for i in range (nrows): 


dataRow = dataFile.iloc[i,1:10] 
labelColor - (dataFile.iloc[i,10] - minRings) / (maxRings - minRings) 


dataRow.plot(color-plot.cm.RdYlBu(labelColor), alpha-0.5) 


plot.xlabel ("Attribute") 
plot.ylabel ("Score") 
show() 


从 代码 可 以 看 出 ， 本 例 首先 计算 总 体 的 统计 量 , 之 后 设置 计算 的 最 大 值 和 最 小 值 (本 例 中 
设置 -1 为 最 小 值 、99 为 最 大 值 )。 为 了 计算 简便 ， 选 择 了 前 10 行 作为 目标 行 数 ， 使 用 for 循 


环 对 数据 进行 训练 。 
最 终 图 形 结果 如 图 3-13 所 示 。 











图 3-13 属性 的 图 形 化 展示 
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从 图 3-13 中 可 以 看 出 ， 由 于 属性 不 同 而 画 出 了 10 条 不 同 的 曲线 。 这些 曲 线 是 根据 不 同 的 
属性 得 出 的 不 同 的 运行 轨迹 。 








dm 可 以 选择 不 同 的 目标 行 和 不 同 的 属性 进行 验证 ， 观 察 更 多 的 数据 展示 结果 有 何不 同 。 | 








3.4.5 ”热点 图 -属性 相关 性 检测 


前 面 小 节 中 , 作者 对 数据 集中 数据 的 属性 分 别 进行 了 横向 和 纵向 的 比较 , 现在 请 读者 换 一 
种 思路 ， 如 果 要 对 数据 属性 之 间 的 相关 性 进行 检测 ， 那 该 怎么 办 ? 

热点 图 是 一 种 判断 属性 相关 性 的 常用 方法 ,根据 不 同 目标 行 数据 对 应 的 数据 相关 性 进行 检 
测 。 程 序 3-12 展示 了 对 数据 相关 性 进行 检测 的 方法 ， 根 据 不 同 数据 之 间 的 相关 性 做 出 图 形 。 


【程序 3-12】 
from pylab import * 
import pandas as pd 
import matplotlib.pyplot as plot 
filePath = ("c://dataTest.csv") 
dataFile = pd.read csv(filePath,header-None, prefix-"V") 


summary = dataFile.describe() 
corMat = DataFrame (dataFile.iloc[1:20,1:20].corr()) 


plot.pcolor (corMat) 
plot.show() 


最 终结 果 如 图 3-14 所 示 。 


[Iriure =g 
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图 3-14 属性 之 间 的 相关 性 图 
不 同 颜色 之 间 显 示 了 不 同 的 相关 性 , 彩色 的 深浅 (参看 下 载 报 中 的 相关 文件 ) 显示 了 相关 
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性 的 强 弱 程度 。 读 者 可 以 通过 打印 相关 系数 来 直观 地 显示 数据 : 


print (corMat) 








f 代码 中 选择 了 前 20 行 中 的 前 20 列 数据 属性 进行 计算 ， 读 者 可 | 
| 示 处 理 。 











3.9 Python 数据 分 析 与 可 视 化 实战 
一 某 地 降水 的 关系 处 理 


上 面 的 章节 对 数据 属性 间 的 处 理 做 了 一 个 大 致 的 介绍 ,本 节 将 使 用 这 个 处 理 方法 解决 一 个 
实际 问题 。 农 业 灌溉 用 水 主要 来 自 于 天 然 降 水 和 地 下 水 。 随 着 中 原 经 济 区 的 发 展 和 城镇 化 水 平 
的 提高 , 城市 用 水 日 趋 紧张 。 下 面 提供 河南 省 降水 量 的 变化 及 分 布 规律 ,为 合理 调度 和 利用 水 
资源 提供 决策 。 数据 集 名 为 rain.csv, 记录 了 从 2000 年 开始 到 2011 年 之 间 的 每 月 降水 量 数 据 。 
本 节 将 以 降水 量 进行 统计 计算 ， 找 出 规律 并 进行 分 析 。 


3.5.1 不 同年 份 的 相同 月 份 统计 


对 于 不 同年 份 , 每 月 的 降水 量 也 是 不 同 的 , 一 般 情 况 下 ,降水 量 会 随 着 春 夏 秋冬 的 交替 呈 
现 不 同 的 状态 , 横向 是 一 个 过 程 。 对 于 不 同 的 年 份 来 说 , 每 月 的 降水 量 应 该 在 一 个 范围 内 浮动 ， 
而 不 应 偏离 均值 太 大 。 


【程序 3-13】 
from pylab import * 
import pandas as pd 
import matplotlib.pyplot as plot 
filePath = ("c://rain.csv") 
dataFile = pd.read csv(filePath) 





summary = dataFile.describe() 
print (summary) 


array = dataFile.iloc[:,1:13].values 
boxplot (array) 

plot.xlabel ("month") 
plot.ylabel(("rain")) 

show() 


打印 结果 如 下 所 示 。 


0 at 2 3 4 
count 12.000000 12.000000 12.000000 12.000000 12.000000 
mean  2005.500000 121.083333 67.833333 102.916667 263.416667 
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Std 3.605551 103.021144 72.148626 137.993714 246.690258 
min 2000.000000 0.000000 0.000000 0.000000 70.000000 
25% 2002.750000 17.750000 9.750000 3.000000 136.250000 
50% 2005.500000 125.000000 39.500000 51.500000 155.000000 
75% 2008.250000 204.500000 123.250000 150.000000 232.500000 
max 2011.000000 295.000000 192.000000 437.000000 833.000000 


5 6 ui 8 9. 
count 12.000000 12.000000 12.000000 12.000000 12.000000 
mean  1134.583333 2365.666667 2529.000000 1875.500000 1992.416667 
std 618.225240 705.323180 1120.231226 603.135821  670.834414 
min 218.000000 766.000000 865.000000 746.000000 621.000000 
25% 685.500000 2117.000000 1770.250000 1723.500000 1630.000000 
50% 951.500000 2440.500000 2023.500000 1943.500000 1961.000000 
75% 1599.000000 2723.750000 3603.000000 2321.750000 2231.750000 
max 2134.000000 3375.000000 4163.000000 2508.000000 3097.000000 


10 1a 12 

count 12.000000 12.000000 12.000000 
mean  1219.250000 159.333333 38.333333 
std 743.534938 124.611639 34.494620 
min 328.000000 0.000000 0.000000 

258 612.250000 64.000000 18.750000 
508 1208.500000 123.000000 25.500000 
758 1672.250000 278.250000 46.250000 
max 2561.000000 357.000000 100.000000 


从 打印 结果 可 以 看 到 , 程序 对 平均 每 个 月 份 的 降水 量 进行 了 计算 , 获得 了 其 偏 移 值 、 均值 
以 及 均 方差 的 大 小 。 
通过 四 分 位 的 计算 ， 可 以 获得 一 个 波动 范围 ， 具 体 结果 如 图 3-15 所 示 。 


CES 





































































































图 3-15 降水 量 的 四 分 位 图 
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从 图 3-15 中 可 以 直观 地 看 到 ， 不 同月 份 之 间 的 降水 量 有 很 大 的 差距 ，1~4 月 降水 量 明 显 
较 少 ， 从 5 月 份 开 始 降水 量 有 明显 增多 ， 到 7 月 份 达到 项 峰 后 回落 ， 之 后 逐渐 减少 ，12 月 达 
到 最 低 的 降水 量 。 

同时 ， 有 几 个 月 份 的 降水 量 有 明显 的 偏 移 ， 即 出 现 离 群 值 ， 可 能 跟 年 度 情 况 有 关 ， 需 要 继 
续 进 行 分 析 。 


3.5.2 不 同月 份 之 间 的 增 减 程度 比较 


正常 情况 下 , 每 年 降水 量 都 呈现 一 个 平稳 的 增长 或 者 减少 的 过 程 , 其 下 降 的 坡度 (趋势 线 ) 
应 该 是 一 样 的 。 程 序 3-14 展示 了 这 种 趋势 。 


【程序 3-14】 
from pylab import * 
import pandas as pd 
import matplotlib.pyplot as plot 
filePath = ("c://rain.csv") 
dataFile = pd.read csv(filePath) 


summary — dataFile.describe() 
minRings = -1 
maxRings = 99 
nrows = 11 
for i in range (nrows): 
dataRow = dataFile.iloc[i,1:13] 
labelColor - (dataFile.iloc[i,12] - minRings) / (maxRings - minRings) 
dataRow.plot(color-plot.cm.RdYlBu(labelColor), alpha-0.5) 
plot.xlabel ("Attribute") 
plot.ylabel(("Score")) 
show() 


最 终 打印 结果 如 图 3-16 所 示 。 


[Eee nes) 
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图 3-16 降水 量 的 趋势 图 
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从 图 中 可 以 明显 地 看 到 , 降水 的 月 份 并 不 是 一 个 规律 的 上 涨 或 下 跌 , 而 是 呈现 一 个 不 规则 
的 浮动 状态 ， 增 加 最 快 的 为 6~7 月 ， 下 降 最 快 的 为 7~8 月 ， 之 后 有 一 个 明显 的 回升 过 程 。 


3.5.3 每 月 降水 是 否 相 关 


每 月 的 降水 量 理论 上 来 说 应 该 是 相互 独立 的 , 即 每 月 的 降水 量 和 其 他 月 份 没有 关系 。 但 是 
实际 上 是 这 样 的 吗 ? 


【程序 3-15】 
from pylab import * 
import pandas as pd 
import matplotlib.pyplot as plot 
filePath = ("c:// rain.csv") 
dataFile = pd.read csv(filePath) 


summary = dataFile.describe() 
corMat = DataFrame (dataFile.iloc[1:20,1:20].corr()) 


plot.pcolor (corMat) 
plot.show() 


通过 计算 ， 最 终结 果 如 图 3-17 所 示 。 
FE roves 


企 OQ9O+7 和 可 国 7 
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图 3-17 月 份 之 间 的 相关 性 显示 


从 图 3-17 可 以 看 出 ， 颜 色 分 布 比较 平均 ， 表 示 并 没有 太 大 的 相关 性 ， 因 此 可 以 认为 每 月 
的 降水 是 独立 行为 ， 即 每 个 月 的 降水 量 和 其 他 月 份 没有 关系 。 
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3.6 本 章 小 结 


上 面 的 章节 已 经 对 数据 属性 间 的 处 理 做 了 一 个 大 致 的 介绍 ,并 使 用 了 数据 分 析 的 方法 对 其 
进行 分 析 和 整理 。 本 章 从 直观 的 观察 开始 , 深入 介绍 和 研究 了 数据 集 和 分 析 工 具 ， 了 解 了 使 用 
Python 类 库 进 行 数据 分 析 的 基本 方法 。 数 据 分 析 从 最 基本 的 矩阵 转换 开始 ， 直 到 对 数据 集 特 
征 值 的 分 析 和 处 理 ， 对 掌握 和 了 解 简单 的 数据 分 析 打 下 基础 。 

使 用 相应 的 类 库 进行 深度 学 习 程 序 设计 是 本 章 的 重点 , 也 是 希望 读者 掌握 的 内 容 。 再 重复 
一 次 ， 请 读者 在 程序 设计 时 尽量 使 用 已 有 的 Python 去 进行 程序 设计 。 在 数据 的 可 视 化 展示 过 
程 中 ， 作 者 通过 多 种 数据 图 形 向 读者 演示 了 可 以 通过 使 用 不 同 的 类 库 非常 直观 地 进行 数据 分 
析 。 希 望 本 章 中 提供 的 不 同 研究 方法 和 程序 设计 思路 能 够 帮助 读者 掌握 基本 数据 集 描述 性 和 统 
计 值 之 间 的 关系 ， 以 有 利于 对 数据 的 掌握 。 

本 章 是 机 器 学 习 的 基础 ,虽然 内 容 简单 , 但 是 非常 重要 , 希望 读者 能 够 使 用 不 同 的 数据 集 
进行 处 理 并 演示 得 到 更 多 的 结果 。 
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第 4 章 
深度 学 习 的 理论 基山 一 一 机 器 学 习 


通过 前 一 章 对 Python 的 介绍 ,读者 对 使 用 Python 进行 程序 设计 的 基本 流程 有 了 一 个 大 致 
的 了 解 ， 并 且 对 其 使 用 的 算法 和 工具 有 了 初步 的 认识 。 

本 章 开始 将 深度 学 习 的 基础 部 分 一 一 机 器 学 习 做 一 个 浅显 的 介绍 本 章 将 着 重 强调 模型 也 
就 是 算法 的 应 用 ， 并 且 会 介绍 机 器 学 习 和 深度 学 习 中 最 基本 的 一 些 内 容 及 其 Python 实现 。 

对 于 深度 学 习 或 者 泛 化 的 一 般 机 器 学 习 而 言 ,选择 不 同 的 算法 对 数据 分 析 的 过 程 和 数据 的 
需求 有 着 极 大 的 不 同 , 而 其 中 最 重要 的 部 分 就 是 算法 的 选择 。 从 本 质 上 来 说 , 机 器 学 习 和 数据 
分 析 就 是 一 个 对 数据 进行 处 理 、 分 析 、 归 类 的 过 程 ， 是 人 类 多 科学 智慧 发 展 的 成 果 和 结晶 ,在 
进行 过 程 运算 的 时 候 充 分 应 用 到 了 人 工 智 能 、 神 经 网 络 、 递 归 处 理 、 边 缘 抉 择 等 不 同 的 交叉 学 
科 的 现 有 成 果 ， 因 此 可 以 充分 利用 不 同学 科 不 同 理论 的 关键 思想 。 


机 器 学 习 基 本 分 类 


在 实践 中 , 机 器 学 习 可 按 目的 的 不 同 进行 分 类 ,其 中 包括 基于 学 科 的 分 类 、 基 于 学 习 模式 
的 分 类 以 及 基于 应 用 领域 的 分 类 。 


4.1.4. 基于 学 科 的 分 类 
一 般 而 言 , 机 器 学 习 在 实际 使 用 过 程 中 主要 应 用 和 使 用 若干 种 学 科 的 知识 和 内 容 , 吸收 兼 
并 不 同 的 思想 和 理念 ， 从 而 使 得 机 器 学 习 最 终 的 正确 率 得 到 提高 , 但 是 根据 算法 的 不 同 ,学 习 
过 程 和 方式 也 不 尽 相同 。 机 器 学 习 在 实践 中 所 使 用 的 学 科 方 法 主要 分 成 以 下 几 类 : 
e ”统计 学 : 基于 统计 学 的 学 习 方 法 ， 是 收集 、 分 析 、 统 计数 据 的 有 效 工 具 ， 描 述 数 据 的 
集中 和 离散 情况 ， 模 型 化 数据 资料 。 
© 人工 智能 : 是 一 种 积极 的 学 习 方 法 ， 利 用 已 有 的 现成 数据 对 问题 进行 计算 ， 从 而 提高 
机 器 本 身 计 算 和 解决 问题 的 能 
@ 信息论: 信息 的 度量 和 炳 的 度量 ， 对 其 中 信息 的 设计 和 掌握 。 
e ”控制 理论 : 理解 对 象 相互 之 间 的 联系 与 通信 ， 关 注 于 总 体 上 的 性 质 。 
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因此 可 以 说 , 机 器 学 习 的 过 程 就 是 不 同 的 学 科 之 间 相互 支撑 、 相 互 印 证 、 共 同 作 用 的 结果 。 
而 机 器 学 习 的 进步 又 直接 扩展 了 相关 学 科 中 人 工 智 能 的 研究 范围 , 使 之 取得 了 丰硕 的 成 果 , 并 
且 使 得 机 器 学 习 在 原 有 基础 上 产生 了 更 大 层次 的 飞跃 。 


4.1.2 ”基于 学 习 模 式 的 分 类 


学 习 模 式 是 指 机 器 学 习 在 过 程 训练 中 所 使 用 的 策略 模式 。 一 个 好 的 学 习 模式 一 般 由 两 部 分 
构成 ， 即 数据 和 模型 。 数 据 提供 基本 的 信息 内 容 ， 而 模型 是 机 器 学 习 的 核心 能够 将 数据 中 蕴 
含 的 内 容 以 能 够 被 理解 的 形式 保存 下 来 。 
一 般 来 说 , 机 器 学 习 中 学 习 模式 是 根据 数据 中 所 包含 的 信息 复杂 度 来 分 类 的 , 基本 可 以 分 
成 以 下 几 类 : 
e AŽ: 归纳 学 习 是 应 用 范围 最 广 的 一 种 机 器 学 习 方 法 , 通过 大 量 的 实例 数据 和 结 
果 分 析 , 使 得 机 器 能 够 归纳 获得 该 数据 的 一 种 一 般 性 模型 , 从 而 对 更 多 的 未 知 数据 进 
行 预测 。 

@ HRF: 根据 已 有 的 数据 对 一 般 的 模型 进行 解释 , 从 而 获得 一 个 较为 泛 型 的 学 习 模 
型 。 

€ ”反馈 学 习 : 通过 学 习 已 有 的 数据 , 根据 不 断 地 获取 数据 的 反馈 进行 模型 的 更 新 ， 从 而 

直接 获取 一 个 新 的 、 可 以 对 已 有 数据 进行 归纳 总 结 的 机 器 学 习 方法 。 


机 器 学 习 在 学 习 模 式 上 的 分 类 实际 上 就 是 学 习 模型 的 分 类 。 需要 注意 的 是 , 在 机 器 学 习 的 
运行 过 程 中 , 模型 往往 跟 数据 的 复杂 度 成 正比 ,数据 的 复杂 度 越 大 ,模型 的 复杂 度 就 越 大 ， 计 
算 就 越 为 复杂 。 

不 同 的 数据 所 要 求 的 模型 千差万别 , 因此 机 器 学 习 中 学 习 模式 的 分 类 实际 上 是 基于 不 同 的 
数据 集 而 采用 的 不 同 的 应 对 策略 , 基于 应 对 策略 的 不 同 而 选择 不 同 的 模型 ， 从 而 获得 更 好 的 分 
析 结 果 。 


4.1.3 ”基于 应 用 领域 的 分 类 


机 器 学 习 的 最 终 目 的 是 解决 现实 中 的 各 种 问题 。 机 器 学 习 根据 在 不 同 领域 的 应 用 , 可 以 分 
成 以 下 几 类 : 

e 专家 系统 : 通过 数据 的 学 习 , 使 得 学 习 机 器 获得 拥有 某 个 方面 大 量 的 经 验 和 认识 的 能 
力 ， 从 而 使 之 能 够 利用 相关 的 知识 来 解决 和 处 理 问题 。 

€ ”数据 挖 气 ; 通过 对 既 有 知识 和 数据 的 学 习 , 从 而 能 够 挖 握 出 隐藏 在 数据 之 中 的 行为 模 
式 和 类 型 ， 从 而 获得 对 某 一 个 特定 类 型 的 认识 。 

@ 图像 识别 : 通过 学 习 已 有 的 数据 ,从 而 获得 对 不 同 的 图 像 或 同一 类 型 图 像 中 特定 目标 
的 识别 和 认识 。 

© 人工 智能 : 通过 对 已 有 模式 的 认识 和 学 习 , 使 得 机 器 学 习 能 够 用 于 研究 开发 、 模 拟 和 
扩展 人 的 多 重 智能 的 方法 、 理 论 和 技术 。 
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@ 自然 语言 处 理 : 实现 人 与 对 象 之 间 通 过 某 种 易于 辨识 的 语言 进行 有 效 通 信 的 一 种 理论 
和 方法 。 
除 此 之 外 ,基于 机 器 学 习 的 应 用 领域 还 包括 对 问题 的 规划 和 求解 ,故障 的 自动 化 分 析 诊 断 、 
经 验 的 推理 等 。 主 要 的 分 类 如 图 4-1 所 示 。 


本 ”模式 识别 ann 
a 
数据 挖掘 i 
语音 识别 Q 
机 器 学 习 
统计 学 习 


pe id 自然 语言 处 理 aa oe 
图 4-1 机 器 学 习 的 主要 分 类 


因此 , 可 以 说 对 于 机 器 学 习 的 各 种 分 类 , 绝 大 部 分 都 可 以 分 成 两 类 ， 即 问 题 的 模型 建立 和 
基于 模型 的 问题 求解 。 

问题 的 模型 建立 是 指 通过 对 数据 和 模式 的 输入 , 做 出 描述 性 分 析 , 从 而 确定 输入 内 容 的 形 
式 。 基 于 模型 的 求解 是 指 对 输入 的 数据 进行 分 析 后 找 出 相关 的 规律 , 并 利用 此 规律 获取 解决 问 
题 的 能 力 。 


4.2 机 器 学 习 基本 算法 


前 面 已 经 介绍 过 , 根据 对 不 同 的 计算 结果 的 要 求 ,， 机 器 学 习 可 分 成 若干 种 ,使 机 器 学 习 在 
实际 应 用 中 分 成 了 不 同 模型 和 类 别 。 

前 面 已 经 提 到 ， 机 器 学 习 还 是 一 门 涉及 多 个 领域 的 交叉 学 科 ， 也 是 多 个 领域 的 新 兴学 科 ， 
因此 ， 它 在 实践 中 越 来 越 多 地 用 到 不 同学 科 中 经 典 的 研究 方法 ， 这 些 方法 统称 为 算法 。 


4.2.1 机 器 学 习 的 算法 流程 


首先 需要 知道 的 是 , 对 于 机 器 学 习 来 说 , 一 个 机 器 学 习 的 过 程 是 一 个 完整 的 项 目 周期 , 其 
中 包括 数据 的 采集 、 数据 的 特征 提取 与 分 类 ,以 及 采用 何 种 算法 去 创建 机 器 学 习 模型 ,从 而 获 
得 预测 数据 。 整 个 机 器 学 习 的 算法 流程 如 图 4-2 所 示 。 
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图 4-2 ”机 器 学 习 的 算法 流程 


在 一 个 机 器 学 习 的 完整 流程 中 ,整个 机 器 学 习 程序 会 使 用 数据 去 创建 一 个 能 够 对 数据 进行 
有 效 处 理 的 学 习 “ 模 型 ”。 这 个 模型 可 以 动态 地 对 本 身 进 行 调整 和 反馈 ， 从 而 可 以 较 好 地 对 未 
知 数据 进行 分 类 和 处 理 。 
一 个 完整 的 机 器 学 习 项 目 包 含 以 下 内 容 : 


o ”输入 数据 : 通过 自然 采集 的 数据 集 ， 包 含 被 标识 的 和 未 被 标识 的 部 分 ， 作 为 机 器 学 习 
的 最 基础 部 分 。 

€ ”特征 提取 : 通过 多 种 方式 对 数据 的 特征 值 进行 提取 . 一 般 而 言 ， 包 含 特征 越 多 的 数据 ， 
机 器 学 习 设计 出 的 模型 就 越 精确 ,处 理 难度 也 越 大 。 因此 寻找 一 个 合适 的 特征 大 小 的 
平衡 点 是 非常 重要 的 。 

e 模型 设计 : 模型 设计 是 机 器 学 习 中 最 重要 的 部 分 , 根据 现 有 的 条 件 , 选择 不 同 的 分 类 ， 
采用 不 同 的 指标 和 技术 。 模型 的 训练 更 多 的 是 依靠 数据 的 收集 和 特征 的 提取 , 这 一 点 
需要 以 上 各 部 分 的 支持 。 

e ”数据 预测 : 通过 对 已 训练 模式 的 认识 和 使 用 ,使 得 机 器 学 习 能 够 用 于 研究 开发 、 模 拟 
和 扩展 人 的 多 重 智能 。 


可 以 看 到 , 整个 机 器 学 习 的 流程 是 一 个 完整 的 项 目 生命 周期 , 每 一 步 都 是 以 上 一 步 为 基础 
进行 的 。 





4.2.2 ”基本 算法 的 分 类 


根据 输入 的 不 同 数据 和 对 数据 的 处 理 要 求 ,机 器 学 习 会 选择 不 同 种 类 的 算法 对 模型 进行 训 
练 。 算 法 训练 的 选择 没有 特定 的 模式 ， 一 般 而 言 ， 只 需要 考虑 输入 的 数据 形式 和 复杂 度 以 及 使 
用 者 模型 的 使 用 经 验 ， 即 可 据 此 进行 算法 训练 ， 从 而 获得 较 好 的 学 习 结果 。 

根据 基本 算法 训练 模式 的 不 同 ， 可 将 算法 分 成 以 下 几 个 类 别 〈 如 图 4-3 所 示 ) : 


@ 无 监督 学 习 : 完全 黑 盒 训练 的 一 种 训练 方法 ， 对 于 输入 的 数据 在 运行 结束 前 没有 任何 
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区 别 和 标识 ,也 无 法 进行 分 类 。 完全 由 机 器 对 数据 进行 识别 和 分 类 ,形成 特有 的 分 析 
模型 。 训 练 过 程 完全 没有 任何 指导 ， 分 析 结 果 也 是 不 可 控 的 。 

€ 有 监督 学 习 : 输入 的 数据 被 人 为 地 分 类 、 被 人 为 地 标记 和 识别 。 通过 对 人 为 标识 的 数 
据 进行 学 习 , 不 断 修 正和 改进 模型 ,使 模型 能 够 对 给 定 的 标识 后 的 数据 进行 正确 分 类 ， 
达到 分 类 的 标准 。 

o HRF: 混合 有 标识 数据 和 无 标识 数据 , 通过 创建 同一 模型 对 数据 进行 分 析 和 识 
别 。 算 法 的 运行 介 于 有 监督 和 无 监督 之 间 ， 最 终 使 得 全 部 输入 数据 能 够 被 区 分 。 半 监 
督学 习 主要 用 于 有 特征 值 缺 失 的 数据 分 析 。 

€ 强化 学 习 : 输入 不 同 的 标识 数据 , 使 用 已 有 的 机 器 学 习 数 据 模型 ,通过 不 同 的 数据 进 
行 学 习 、 反 馈 和 修正 现 有 模型 ， 从 而 建立 一 个 新 的 能 够 识别 输入 数据 的 模型 算法 。 


图 4-3 机 器 学 习 的 算法 分 类 


从 图 4-3 可 以 看 到 , 不 同 的 算法 有 不 同 的 目的 和 要 求 。 机 器 学 习 在 实际 使 用 时 有 很 多 算法 
可 供 选 择 , 不 同 的 算法 又 有 很 多 的 修正 和 改变 , 对 于 某 个 特定 的 问题 , 选择 一 个 符合 数据 规则 
的 算法 是 很 困难 的 。 

目前 用 得 比较 多 的 是 有 监督 学 习 和 无 监督 学 习 , 但 是 由 于 大 数据 的 普及 , 更 多 的 数据 会 产 
生 大 量 的 特征 值 缺 失 ， 因 此 未 来 的 一 段 时 间 ， 半 监督 学 习 将 逐渐 变 成 热门 和 重点 研究 对 象 。 








l 


E= 对 于 大 多 数 的 算法 来 说 ， 通 过 机 器 学 习 都 可 以 较 好 地 实现 一 个 数据 的 分 类 和 拟 合 的 模型 ， 
L 其 差别 主要 集中 在 功能 和 形式 上 。 做 好 数据 分 类 ， 基 本 可 以 较 好 地 实现 机 器 学 习 的 目的 。 
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对 于 机 器 学 习 来 说 , 最 重要 的 部 分 是 两 个 , 即 数据 的 收集 以 及 算法 的 设计 。 在 实际 应 用 中 ， 
数据 收集 一 般 有 具体 的 格式 和 要 求 ,因此 对 其 限制 较 多 。 对 于 算法 的 选择 则 较为 灵活 ,可 以 根 
据 需 要 选择 适合 数据 流程 的 算法 ， 进 而 进一步 训练 模型 。 


4.3.1 小 学 生 的 故事 一 一 求 圆 的 面积 


圆 是 自然 界 最 重要 和 最 特殊 的 图 形 ,从 古 至 今世 界 上 对 其 研究 非常 深刻 ,甚至 于 将 其 视 作 
神圣 的 图 形 来 膜拜 。 对 于 数学 家 来 说 , 求 圆 的 面积 确实 是 对 数学 家 能 力 的 一 次 重要 考验 (如 图 
4-4 所 示 ) o 








4-4 这 个 圆 的 面积 是 多 少 


直接 计算 圆 的 面积 很 难 。 为 了 解决 问题 ， 数 学 家 们 想 了 很 多 办 法 ， 其 中 最 简单 的 是 使 用 蔡 
代 法 。 即 寻找 一 个 矩形 ， 使 其 面积 能 够 等 于 或 者 近似 等 于 圆 的 面积 。 

我 国 古代 的 数学 家 祖冲之 ， 从 圆 内 接 正六 边 形 入 手 , 让 边 数 成 倍增 加 ,用 圆 内 接 正 多 边 形 
的 面积 去 逼近 圆 面 积 ; 古 希腊 的 数学 家 ， 从 圆 内 接 正 多 边 形 和 外 切 正 多 边 形 同 时 入 手 ， 不 断 增 
加 它们 的 边 数 ， 从 里 外 两 个 方向 去 逼近 圆 面积 ; 古 印 度 的 数学 家 ， 采 用 类 似 切 西瓜 的 办 法 ， 把 
圆 切 成 许多 小 汶 ， 再 把 这 些小 办 对 接 成 一 个 长 方形 ， 用 长 方形 的 面积 去 代替 圆 面 积 〈 如 图 4-5 
所 示 ) 。 





BE 4 份 8 份 | 

p TINI — RW 

| 32 份 leti 
fige] 


图 4-5 求解 圆 的 面积 
众多 的 古代 数学 家 化 费 苦心 ,巧妙 构思 , 为 求 圆 面积 做 出 了 十 分 宝贵 的 贡献 ,为 后 人 解决 
这 个 问题 开辟 了 道路 。 他 们 的 方法 无 外 乎 使 用 近似 的 方法 ,将 一 个 圆 切 分 成 若干 小 等 分 , 组 合 
成 一 个 矩形 来 蔡 代 圆 。 
这 也 是 微 积分 的 数学 基础 。 
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4.8.2 ”机 器 学 习 基础 理论 一 一 函数 逼近 


对 于 机 器 学 习 来 说 ， 机 器 学 习 的 算法 理论 基础 即 函数 逼近 。 

在 机 器 学 习 中 , 能 够 对 标识 或 未 标识 的 数据 进行 分 类 是 机 器 学 习 的 最 终 目 的 。 分 类 的 确定 
是 由 学 习 模型 所 创建 的 ， 而 模型 的 建立 则 又 是 根据 算法 的 不 同 去 拟 合 和 创建 的 。 

在 机 器 学 习 的 理论 中 ,对 于 数据 模型 来 说 ,找到 一 个 完全 符合 数据 分 类 的 模型 是 不 可 能 的 ， 
因此 借助 于 更 多 更 细 的 对 数据 的 划分 去 创建 一 个 可 以 划分 数据 的 模型 是 可 行 的 。 

4-6 展现 了 一 个 对 不 规则 曲线 求 面积 的 方法 。 对 于 不 规则 的 面积 ,一般 情况 下 很 难 直 接 
计算 到 面积 的 准确 大 小 。 可 以 变相 地 利用 更 多 的 小 矩形 组 合 在 一 起 来 求 近似 值 ， 当 求 出 更 多 小 
矩形 的 面积 之 和 时 ， 即 可 近似 地 视 为 曲线 面积 。 

这 就 是 函数 逼近 的 方法 。 








图 4-6 “面积 函数 逼近 图 


一 般 来 说 ， 函 数 逼近 在 机 器 学 习 中 是 一 个 巨大 的 分 类 ， 其 中 包含 着 多 种 拟 合 方法 和 算法 。 
4-7 展示 了 机 器 学 习 主要 算法 的 分 类 。 





图 4-7 机 器 学 习 基本 算法 
其 中 可 以 看 到 , 机 器 学 习 的 基本 算法 内 容 包 含 多 种 机 器 学 习 的 成 熟 算法 。 这 些 算法 的 使 用 
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范围 相当 广泛 ,在 本 书 的 后 续 章 节 中 将 会 逐一 进行 介绍 。 一 般 来 说 ,函数 逼近 问题 被 划分 在 预 
测算 法 之 中 ， 主 要 应 用 在 自然 语言 处 理 、 网 络 搜索 服务 以 及 精准 推荐 等 方面 。 
这 里 主要 介绍 机 器 学 习 中 的 函数 逼近 ， 其 中 最 常用 和 最 重要 的 方法 就 是 回归 算法 。 











4.4 回归 算法 


据说 “回归 ”这 个 词 最 早出 现 于 一 位 英国 遗传 学 家 的 研究 工作 中 。 他 在 平常 的 工作 中 注意 
到 一 个 奇怪 的 现象 , 一 般 的 孩子 身高 与 父母 的 身高 并 不 成 正比 , 即 并 不 是 父母 越 高 、 孩 子 越 高 。 

他 经 过 长 时 间 的 研究 发 现 , 若 父母 的 身高 高 于 一 般 的 社会 平均 人 群 身高 , 则 其 子女 身高 具 
有 较 大 可 能 变 得 矮小 ， 即 会 比 其 父母 的 身高 矮 一 些 , 更 加 向 社会 的 普通 身高 靠拢 。 若 父母 身高 
低 于 社会 人 群 平均 身高 , 则 其 子女 身高 倾向 于 变 高 ， 即 更 接近 于 大 众 平均 身高 。 此 现象 在 其 论 
文中 被 称 为 回归 现象 。 
可 归 也 是 机 器 学 习 的 基础 。 本 节 将 介绍 两 种 主要 回归 算法 ， 即 线性 回归 和 逮 辑 回归 ,它们 
归 算法 中 最 重要 的 部 分 ， 也 是 机 器 学 习 的 核心 算法 。 























是 


4.4.1 函数 逼近 经 典 算法 一 一 线性 回归 算法 


前 面 已 经 提 到 过 , 在 本 书 中 将 尽量 少 用 数学 公式 而 是 采用 浅显 易 懂 的 方法 去 解释 一 些 机 器 
学 习 中 用 到 的 基本 理论 和 算法 。 本 节 的 难度 略 有 提高 。 

首先 对 于 回归 的 理论 进行 解释 : 回归 分 析 (regression analysis). 是 确定 两 种 或 两 种 以 上 变 
数 间 相互 依赖 的 定量 关系 的 一 种 统计 分 析 方 法 。 按照 自 变量 和 因 变 量 之 间 的 关系 类 型 , 可 分 为 
线性 回归 分 析 和 非 线性 回归 分 析 。 如 果 在 回归 分 析 中 ， 只 包括 一 个 自 变量 和 一 个 因 变 量 , 且 二 
者 的 关系 可 用 一 条 直线 近似 表示 , 那么 这 种 回归 分 析 称 为 一 元 线性 回归 分 析 。 如 果 回 归 分 析 中 
包括 两 个 或 两 个 以 上 的 自 变量 , 且 因 变量 和 自 变 量 之 间 是 线性 关系 , 那么 它 称 为 多 元 线性 回归 
分 析 。 

换 句 话说 , 回归 算法 是 一 种 基于 已 有 数据 的 预测 算法 ,目的 是 研究 数据 特征 因子 与 结果 之 
间 的 因果 关系 。 举 个 经 典 的 例子 ， 表 4-1 表示 为 某 地 区 房屋 面积 与 价格 之 间 的 一 个 对 应 表 。 


表 4-1 某 地 区 房屋 面积 与 价格 对 应 表 


EJ 














EJ 






































为 了 简单 起 见 ， 在 该 表 中 只 计算 了 一 个 特征 值 (房屋 的 面积 ) 以 及 一 个 结果 数据 (房屋 的 
价格 ) ， 由 此 可 以 使 用 数据 集 构建 一 个 直角 坐标 系 ， 如 图 4-8 所 示 。 
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图 4-8 房屋 面积 与 价格 回归 表 
数据 集 的 目的 是 建立 一 个 线性 方程 组 , 能够 对 所 有 的 点 距离 无 限 地 接近 , 即 价格 能 够 根据 
房屋 的 面积 大 小 决定 。 
可 以 据 此 得 到 一 个 线性 方程 组 : 
h(x) 2 0, * 0x 
更 进一步 ， 如果 将 其 设计 成 为 一 个 多 元 线性 回归 的 计算 模型 ， 例 如 添加 一 个 新 的 变量 ， 即 
独立 卧室 数 ， 那 么 数据 表 如 表 4-2 所 示 。 


R42 某 地 区 房屋 面积 与 价格 对 应 表 








据 此 得 到 的 线性 方程 组 为 : 
h,(x) - 0, - Gx - Ox 





本 归 计 算 的 建 模 能 力 是 非常 强大 的 , 可 以 根据 每 个 特征 去 计算 结果 , 能 够 较 好 地 体现 特征 
值 的 影响 。 同时 从 上 面 的 内 容 可 以 看 出 , 每 个 回归 模型 都 可 以 由 一 个 回归 函数 表示 出 来 ， 以 较 
好 地 表现 出 特征 与 结果 之 间 的 关系 。 

以 上 内 容 为 初等 数学 内 容 , 读者 可 以 较 好 地 掌握 。 但 是 请 不 要 认为 这 些 内 容 不 重要 ,因为 
这 是 机 器 学 习 中 线性 回归 的 基础 。 
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4.4.2 ”线性 回归 的 姐妹 一 一 逻辑 回归 


我 们 在 前 面 已 经 提 到 , 在 本 书 中 将 最 少 地 使 用 数学 公式 , 转 而 采用 浅显 易 懂 的 方法 去 解释 
一 些 机 器 学 习 中 用 到 的 基本 理论 和 算法 。 本 小 节 难 度 较 大 ， 读 者 可 以 不 看 数学 理论 部 分 。 

逻辑 回归 主要 是 应 用 在 分 类 领域 , 主要 作用 是 对 不 同性 质 的 数据 进行 分 类 标识 。 逻辑 回归 
是 在 线性 回归 的 算法 上 发 展 起 来 的 ， 提 供 一 个 系数 9， 并 对 其 进行 求 值 。 基 于 这 一 点 ， 罗 辑 回 
归 可 以 较 好 地 提供 理论 支持 和 不 同 算法 ， 轻 松 地 对 数据 集 进行 分 类 。 

图 4-9 表示 房屋 面积 与 价格 回归 表 , 这 里 使 用 逻辑 回归 算法 对 房屋 价格 进行 了 分 类 。 可 以 
看 到 ， 上 面 的 点 被 较 好 地 分 成 了 两 个 部 分 ， 这 也 是 在 计算 时 要 求 区 分 的 内 容 。 























图 4-9 ”房屋 面积 与 价格 回归 表 
逻辑 回归 的 具体 公式 如 下 所 示 : 
1 
71 + exp (-67x) 
与 线性 回归 相同 ， 这 里 的 9 是 逻辑 回归 的 参数 ， 即 回归 系数 。 若 将 其 进一步 变形 ， 反 映 二 
元 分 类 问题 ， 则 公式 为 : 


fœ) 





1 


fO = 1lx,0) AEE 


这 里 的 y 值 是 由 已 有 的 数据 集中 的 数据 和 9 共同 决定 的 。 实 际 上 这 个 公式 求 的 是 在 满足 一 定 
条 件 下 最 终 取 值 的 对 数 概率 ， 即 对 数据 集 可 能 性 的 比值 做 对 数 变换 得 到 。 利 用 公式 可 表示 为 : 


人 = 0, x, + Oxa d Opn 
通过 这 个 逻辑 回归 倒 推 公式 可 知 , 最 终 逻 辑 回归 的 计算 可 以 由 数据 集 的 特征 向 量 与 系数 9 
共同 完成 ， 然 后 求 得 加 权 和 ， 得 到 最 终 的 判断 结果 。 


log(x) = In 
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由 前 面 的 数学 分 析 来 看 , 最终 逻辑 回归 问题 又 称 为 对 系数 9 的 求 值 问题 。 这 里 读者 只 需要 
知道 原理 即 可 。 





全 ”机 器 学 习 的 其 他 算法 一 决策 树 


除了 回归 算法 外 ,机 器 学 习 还 有 其 他 较为 常用 的 学 习 算 法 , 这 里 只 介绍 一 个 , 即 决 策 树 算 
法 。 

决策 树 是 在 已 知 各 种 情况 发 生 概率 的 基础 上 , 通过 构成 决策 树 来 求 取 净 现 值 的 期 望 值 大 于 
等 于 零 的 概率 , 评价 项 目 风险 。 判断 其 可 行 性 的 决策 分 析 方 法 是 直观 运用 概率 分 析 的 一 种 图 解 
法 。 由 于 这 种 决策 分 支 画 成 图 形 很 像 一 棵 树 的 枝 干 ， 因 此 称 为 决策 树 。 本 节 主要 介绍 决策 树 的 
构建 算法 和 运行 示例 。 


4.5.1 水 晶 球 的 秘密 

相信 读者 都 玩 过 这 样 一 个 游戏 。 有 一 个 神秘 的 水 晶 球 摆 放 在 桌子 中 央 , 一 个 低沉 的 声音 (一 
般 是 女性 ) 会 问 你 许多 如 下 问题 。 

问 : 你 在 想 一 个 人 ， 让 我 猜 猜 这 个 人 是 男性 ? 

答 : 不 是 的 。 

问 : 这 个 人 是 你 的 亲属 ? 

答 : 是 的 。 

问 : 这 个 人 比 你 年 长 ? 

答 : 是 的 。 

问 : 这 个 人 对 你 很 好 ? 

答 : 是 的 。 


那么 聪明 的 读者 也 应 该 能 猜 得 出 来 ， 这 个 问题 的 最 终 答案 是 : “母亲 ”。 这 是 一 个 常见 的 
游戏 ， 但 是 如 果 将 其 作为 一 个 整体 去 研究 ， 那 么 整个 系统 的 结构 将 如 图 4-10 所 示 。 





图 4-10 水 晶 球 的 秘密 
如 果 读 者 使 用 过 项 目 流程 图 , 就 可 以 知道 ， 系 统 最 高 处 代表 根 节点 是 系统 的 开始 。 整 个 系 
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统 类 似 于 一 个 项 目 分 解 流程 图 , 其 中 每 个 分 支 和 树叶 代表 一 个 分 支 向 量 , 每 个 节点 代表 一 个 输 
出 结果 或 分 类 。 

决策 树 用 以 预测 的 是 一 个 固定 的 对 象 ， 从 根 到 叶 节 点 的 一 条 特定 路 线 就 是 一 个 分 类 规则 ， 
决定 这 一 个 分 类 算法 和 结果 。 

由 图 4-10 可 以 看 到 ， 决 策 树 的 生成 算法 是 从 根部 开始 的 ， 输 入 一 系列 带 有 标签 分 类 的 示 
例 (向量) ， 从 而 构造 出 一 系列 的 决策 节点 。 其 节点 又 称 为 逻辑 判断 ， 表 示 该 属性 的 某 个 分 支 
(属性 ) ， 供 下 一 步 继 续 判 定 。 一 般 有 几 个 分 支 就 有 几 条 有 向 的 线 作为 类 别 标记 。 


4.5.2 ”决策 树 的 算法 基础 一 一 信息 炳 


信息 炉 指 的 是 对 事件 中 不 确定 的 信息 的 度量 。 在 一 个 事件 或 者 属性 中 , 信息 炉 越 大 , 含有 
的 不 确定 信息 越 大 , 对 数据 分 析 的 计算 就 越 有 益 。 因此 信息 粹 总 是 选择 当前 事件 中 拥有 最 高 信 
EUR S IE Fn P E 7 WE HE o 

WEKT, teri 5E Ja te rh pr Qn Rn cs RAE? 

在 一 个 事件 中 , SEVERE IRTERS AS Fel fes URS 需要 考虑 和 掌握 的 是 所 有 属性 可 能 发 生 
的 平均 不 确定 性 。 如 果 其 中 有 n 种 属性 ， 其 对 应 的 概率 为 Pi. Pa. Py. ven ` Pw HARTE 
HEA, ERPE, JERERI DUE AG EEN A AANE ERIRE, BI: 


E(P) = E(-logp;) = -Yn logp; 


23 T EERE IURI XL, 1X HOS BUT. 

小 明 喜 欢 出 去 玩 , 大 多 数 的 情况 下 他 会 选择 天 气 好 的 时 候 出 去 , 但 是 有 时 候 也 会 选择 天 气 
差 的 时 候 出 去 ， 而 天 气 的 标准 又 有 如 下 4 个 属性 : 

@ 温度 

@ 起 风 

e FH 

e 湿度 

为 了 简便 起 见 ， 这 里 每 个 属性 只 设置 两 个 值 ，0 和 1: 温度 高 用 1 表示 , 低 用 0; 起 风 用 1 
表示 ， 没 有 用 0; 下 十 用 1 表示 ， 没 有 用 0; 湿度 高 用 1 表示 ， 低 用 0。 表 4-3 给 出 了 一 个 具 
体 的 记录 。 





表 4-3 是 否 出 去 玩 的 记录 
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本 例子 需要 分 别 计算 各 个 属性 的 粹 ， 这 里 以 是 否 出 去 玩 的 炉 计 算 为 例 ， 演 示 计 算 过程 。 
根据 公式 首先 计算 出 去 玩 的 概率 (有 2 个 不 同 的 值 ，0 和 1) 。 例 如 ， 第 一 列 温度 标签 有 
2 个 不 同 的 值 (0 和 1) ， 其 中 1 出现 了 4 次 而 0 出 现 了 2 次 ， 因 此 根据 公式 可 以 得 到 : 
(4 
2 346 
2 2 
5 


AT 


A. 4. 13.3 
FE(o) 一 -> plog p; = "(log D) - (clog, g) «0.918 


即 出 去 玩 〈out) Hf EAS 0.918. SERM, AAAS RU PER GS AR, BD 


E(t) = 0.809 
E(w) = 0.459 
E(r) = 0.602 
E(h) = 0.874 


4.5.3 决策 树 的 算法 基础 一 一 ID3 算法 


ID3 算法 是 基于 信息 焙 的 一 种 经 典 决 策 树 构 建 算法 。 根 据 百 度 百科 的 解释 ，ID3 算法 是 一 
种 贪心 算法 ， 用 来 构造 决策 树 。ID3 算法 起 源 于 概念 学 习 系统 (CLS) , UM EB T KERRE 
为 选取 测试 属性 的 标准 , 即 在 每 个 节点 选取 还 尚未 被 用 来 划分 、 具 有 最 高 信息 增益 的 属性 作为 
划分 标准 ， 然 后 继续 这 个 过 程 ， 直 到 生成 的 决策 树 能 完美 分 类 训练 样 例 。 

因此 可 以 说 , ID3 算法 的 核心 就 是 信息 增益 的 计算 。 信 息 增益 指 的 是 一 个 事件 中 前 后 发 生 
的 不 同 信息 之 间 的 差 值 , 换 句 话 说 就 是 在 决策 树 的 生成 过 程 中 属性 选择 划分 前 和 划分 后 不 同 的 
信息 焙 差 值 。 用 公式 可 表示 为 : 


Gain(Py,P7)-E(P1) - E(P2) 


K 4-3 构建 的 最 终 决 策 是 要 求 确定 小 明 是 否 出 去 玩 , AET EUER HS EAE A e d 
的 数值 ， 将 每 个 不 同 的 属性 与 其 相 减 ， 从 而 获得 对 应 的 信息 增益 ， 结 果 如 下 : 

€ Gain(obD =0.918 — 0.809 = 0.109 

€  Gain(o,w) = 0.918 — 0.459 = 0.459 

€  Gain(oi) = 0.918 — 0.602 = 0.316 

€  Gain(o.h) = 0.918 — 0.874 = 0.044 

通过 计算 可 得 ， 其 中 信息 增益 最 大 的 是 “起 风 ”， 它 首先 被 选中 作为 决策 树 根 节点 , 之 后 
将 每 个 属性 继续 引入 分 支 节点 ， 从 而 可 得 一 个 新 的 决策 树 ， 如 图 4-11 所 示 。 
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图 4-11 第 一 个 增益 决定 后 的 分 步 决策 树 


其 中 , 属性 中 wind 为 1 的 所 有 其 他 属性 归 为 决策 树 左 边 节点 ,而 wind 属性 为 0 的 被 分 成 
另外 一 个 节点 。 之 后 继续 仿照 计算 信息 增益 的 方法 , 依次 对 左右 的 节点 进行 递归 计算 , 最 终结 
果 如 图 4-12 所 示 。 


是 (wind=1) 一 
Pd di 






高 (temp=1) 低 (temp=0) 


否 (rain=0) 


图 4-12 出 去 玩 的 决策 树 
从 图 中 可 以 看 到 , 根据 信息 增益 的 计算 可 以 很 容易 地 构建 一 个 将 信息 人 降 低 的 决策 树 ， 从 
而 使 不 确定 性 达到 最 小 。 
通过 上 述 分 析 可 知 ,对 于 决策 树 来 说 , 模型 的 训练 是 固定 的 , 因此 生成 的 决策 树 也 是 一 定 
的 ; 其 中 不 同 的 地 方 在 于 训练 的 数据 集 ， 这 点 是 需要 注意 的 。 在 本 书 的 后 面 , 会 写 出 一 个 决策 
树 的 代码 实现 ， 请 读者 注意 。 


4.6 本章 小 结 


在 前 面 的 内 容 中 已 经 介绍 了 机 器 学 习 的 分 类 和 常用 算法 ,对 最 常用 的 算法 原理 有 了 一 定 介 
绍 。 但 是 除了 最 基本 的 算法 ， 机 器 学 习 在 实际 应 用 中 还 有 其 他 需要 注意 的 地 方 。 
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机 器 学 习 算法 的 分 类 是 多 种 多 样 的 , 可 采用 的 算法 也 很 多 , 在 实际 工作 中 采用 何 种 算法 是 
一 个 令 程序 设计 人 员 非 常 头 疼 的 问题 。 

在 前 文 介绍 机 器 学 习 时 已 经 举 了 例子 , 使 用 线性 回归 可 以 量化 地 计算 出 房屋 面积 、 卧室 与 
房屋 价格 之 间 的 关系 。 也 许 这 个 关系 不 太 精 确 , 但 是 可 以 较 好 地 反映 出 各 个 属性 之 间 是 否 有 联 
系 ， 以 更 好 地 帮助 读者 对 一 些 不 能 够 直接 反映 的 量 转化 为 量化 处 理 。 

除了 一 般 性 的 训练 方法 外 , 线性 回归 对 于 特征 值 的 选择 也 较为 简单 , 可 以 选择 一 般 性 的 数 
据 作为 其 计算 的 特征 值 ， 在 计算 时 也 应 该 选择 比较 容易 计算 的 拟 合 方程 去 构建 机 器 学 习 模型 ， 
这 些 使 用 场景 线性 回归 均 能 够 满足 。 

线性 回归 算法 的 好 处 首先 在 于 计算 速度 非常 快 。 一 般 模 型 建立 的 时 间 可 以 压缩 到 几 分 钟 ， 
甚至 对 于 数 百 吉 字 节 (GB) 的 网 络 大 数据 ， 也 可 以 在 数 小 时 之 内 完成 ， 非 常 有 利于 借助 分 布 
式 系统 对 大 数据 进行 处 理 。 其 次 对 于 一 些 问题 的 求解 , 线性 回归 方法 能 够 比 其 他 算法 有 更 好 的 
性 能 。 综合 起 来 看 , 一 些 问题 并 不 需要 复杂 的 算法 模型 ,而 是 需要 对 数据 的 复杂 度 和 数据 集 的 
大 小 进行 综合 考虑 ， 所 以 线性 回归 模型 能 够 取得 更 好 的 整体 模型 算法 效果 。 
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第 5 Ex 


ch te 
< 计算 机 视觉 处 理 库 OpenCV > 


OpenCV (Open Source Computer Vision Library) 是 Intel 公司 所 支持 开发 的 一 个 计算 机 视 
觉 处 理 开源 软件 库 ， 采 用 C 和 C++ 编写 ， 也 提供 了 Python、Matlab 等 语言 的 接口 ， 并 且 可 以 
自由 地 运行 在 Linux/Windows/Mac 等 多 平台 操作 系统 上 。 

OpenCV 的 目标 是 让 使 用 者 能 够 通过 合理 的 使 用 和 搭配 , 构建 一 个 简单 易 用 的 计算 机 视觉 
处 理 框 架 , 能 够 便捷 地 设计 更 为 复杂 的 计算 机 视觉 的 相关 应 用 , 而 且 OpenCV 充分 利用 了 Intel 
处 理 器 的 高 性 能 多 媒体 函数 库 ， 优 化 了 性 能 ， 提 高 了 运行 速度 。 

目前 来 说 ，OpenCV 所 包含 的 能 够 进行 视觉 处 理 的 函数 和 方法 接近 1000 个 , 已 经 能 够 
极 大 地 满足 各 行 各 业 的 需求 ， 覆 盖 了 医学 影像 、 设 计 外 观 、 定 位 标记 、 生 物体 检测 等 多 个 
行业 领域 。 





认识 OpenCV 


在 第 2 章 的 内 容 中 ， 作 者 带领 读者 通过 下 载 编译 好 的 whl 文件 的 方法 简单 地 安装 完 
OpenCV, 并 且 可 以 直接 在 Python 中 使 用 。 本章 将 全 面 介绍 OpenCV 的 使 用 。 从 基本 结构 入 手 ， 
之 后 通过 使 用 OpenCV 读 取 一 幅 图 片 ， 学习 使 用 OpenCV， 并 逐渐 深入 ， 掌 握 使 用 OpenCV 处 
理 各 种 图 片 数据 的 方法 ， 为 使 用 神经 网 络 处 理 数据 打下 基础 。 


5.1.1 OpenCV 的 结构 


兴趣 的 部 分 ， 就 会 有 得 心 应 手 、 一 览 众 山 小 的 学 习 体 验 。 

进入 到 OpenCV 在 Anaconda 的 安装 目录 (一般 在 ..…\Anaconda3\pkgs\opencv-3.3.1-py36h20b85fd_ 
IWibraryincludevopencv2) ， 可 以 看 到 opencv 和 opencv2 两 个 文件 夹 。opencv 文件 夹 里 面包 
含 旧版 的 头 文件 ，opencv2 文件 夹 里 面包 含 新 版 OpenCV2 系列 的 头 文件 。 

opencv 文件 夹 如 图 5-1 所 示 。 
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naconda" FRERE > opencv-3.31-py36h20b85fd_1 » Library » include » opencv = 











he RF- FHR 

名 称 3 修改 日 类 型 

lh ovh 2017/12/8 710 C Header File 
lh cv.hpp. 2017/12/8 7:10 C++ Header File 
ih cvaux.h 2017/12/8 7:10 C Header File 
园 cvaux.hpp. 2017/12/8710 C++ Header File 
[Eb cwimageh 2017/12/8710 C Header File 
E cxcoreh 2017/12/87:10 C Header File 
lmà cxcore.hpp 2017/12/87:10 C++ Header File 
恩 cxeigen.hpp 2017/12/87:10 C++ Header File 
[E cxmisc.h 2017/12/87:10 C Header File 
ach highgui.h 2017/12/87:10 C Header File 
Inh mih 2017/12/8710 C Header File 





5-1 opencv 文件 夹 的 文件 
opencv2 文件 夹 在 ..\opencv\build\include\opencv2 AKF, HARUR 5-2 所 示 。 











m 名 称 dee aw 大 小 
DERIT Je aruco 2018/1/24 15: 
LET J calib3d 
D manamus I ccalib 
E OneDrive Je core 

J datasets 

Li J dnn 
Bw I face 
eme features2d 
D xci de flann 
EX IL Je fuzzy. 
denk J highgui 

Jb. img hash 

LII d. imgcodecs 

de imgproc 

e 计 算 机 line. descriptor 
dz, TUER (C) Dm 2018/1/24 15: 
s> TEES (D) J objdetect 2018/1/24 1 











so ER (E) optfiow 
«E CD 驱动 四 (6) IK phase unwrapping 
d. photo 
Qas D reg 8/1/24 15:30 
d. rgbd 8/1/24 15:30 
A. saliency 2018/1/24 15:30 
shape 8/1/24 15:30 
de stereo 8/1/24 15:30 
J stitching 








È structured light. 





图 5-2 opencv2 文件 夹 的 文件 目录 


OpenCV2 中 与 新 模块 构造 相关 的 说 明代 码 存放 在 同一 文件 夹 中 的 opencv_modules.hpp X 
件 里 ， 打 开 这 个 文件 可 以 发 现 其 定义 的 是 OpencV2 所 有 组 件 的 宏 ， 具 体 如 下 : 


(1) [calib3d] —— Calibration (校准 ) 和 3D 这 两 个 词 的 组 合 缩写 。 这 个 模块 主要 是 相 
机 校准 和 三 维 重建 相关 的 内 容 , 包括 基本 的 多 视角 几何 算法 、 单 个 立体 摄像 头 标 定 、 物 体 姿态 
估计 、 立 体 相似 性 算法 、3D 信息 的 重建 等 。 
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(2) 【contrib】 一 一 Contribute/Experimental Stuf 的 缩写 。 该 模块 包含 了 一 些 不 太 稳 定 的 


可 选 功能 ， 比 如 入 脸 识别 、 立 体 匹 配 、 人 工 视网膜 模型 等 技术 。 


(3) [corel 
e ”动态 数据 结构 

e ”绘图 函数 

e 数组 操作 相关 函数 
e. 

e. 





核心 功能 模块 和 OpenCV 基本 数据 结构 ， 包 含 如 下 内 容 : 


辅助 功能 与 系统 函数 和 安 
与 OpenGL 的 互 操作 


(4) 【imgproc】 一 一 Image 和 Process 这 两 个 单词 的 缩写 组 合 ， 图 像 处 理 模块 ， 包 含 如 


下 内 容 : 


e 线性 和 非 线性 的 图 像 滤波 
e 图 像 的 几何 变换 

e ”其 他 的 图 像 变换 

e 直方 图 相关 

@ ”结构 分 析 和 形状 描述 
€ ”运动 分 析 和 对 象 跟踪 
e 特征 检测 
e 目标 检测 


一 
u 


) 【feature2d】 一 一 2D 功能 框架 ， 包 含 如 下 内 容 : 


特征 检测 和 描述 

特征 检测 器 (Fearure Detectors ) 通用 接口 
描述 符 提取 器 ( Description Extracters ) 通用 接口 
描述 符 匹配 器 (Description Eatchers ) 通用 接口 
通用 描述 符 (Generic Description ) 匹配 器 通用 接口 
关键 点 绘制 函数 和 匹配 功能 绘制 函数 


(6) 【flann】 一 一 Fast Library For Approximate Nearest Neighbors， 高 维 的 近似 近邻 快速 


搜索 算法 库 ， 包 含 两 个 部 分 : 


e ”快速 近似 最 近邻 搜索 

e XX 

(7) 【GPU】 一 一 运用 GPU 加 速 的 计算 机 视觉 模块 。 

(8) 【highgui】 一 一 高 层 GUI 图 形 用 户 界面 ， 包 含 媒体 的 输入 输出 、 视 频 捕捉 、 图 像 和 


视频 的 解码 编码 、 图 形 交 互 界面 的 接口 等 内 容 。 
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(9) 【legacy】 一 一 一 些 已 经 废弃 的 代码 库 ， 保 留 下 来 作为 向 下 兼容 ， 包 含 如 下 内 容 : 


第 5 章 计算 机 视觉 处 理 库 OpenCV 


运动 分 析 

期 望 最 大 化 

直方 图 

平面 细 分 (CAPI) 

特征 检测 和 描述 ( Feature Detection and Description ) 
描述 符 提取 器 ( Description Extracter) 的 通用 接口 

通用 描述 符 匹配 器 ( Generic Description Matchers ) 的 通用 接口 
匹配 器 


(100 [ml] ——Machine Learning， 机 器 学 习 模 块 ， 基 本 上 是 统计 模型 和 分 类 算法 ， 包 
含 如 下 内 容 : 


统计 模型 (Statistical Models ) 

一 般 贝 叶 斯 分 类 器 ( Normal Bayes Classifier ) 
区 -近邻 ( K-NearestNeighbors ) 

支持 向 量 机 ( Support Vector Machines ) 
决策 树 (Decision Trees ) 

提升 (Boosting ) 

梯度 提高 树 (Gradient Boosted Trees ) 
随机 树 (Random Trees ) 

超 随机 树 ( Extremely randomized trees ) 
期 望 最 大 化 (Expectation Maximization ) 
神经 网 络 (Neural Networks ) 

MLData 


(11) 【nonfree】 一 一 一 些 具有 专利 的 算法 模块 ， 包 含 特征 检测 和 GPU 相关 的 内 容 。 
(12) 【objdetect】 一 一 目标 检测 模块， 包含 Cascade Classification 〈 级 联 分 类 ) 和 Latent 
SVM 两 个 部 分 。 
(13) [ocl] ——OpenCL-accelerated Computer Vision， 运 用 OpenCL 加 速 的 计算 机 视觉 
组 件 模 块 。 
(14) 【photo】 一 一 Computational Photography， 包 含 图 像 修复 和 图 像 去 噪 两 部 分 。 
(15) 【stitching】 一 一 images stitching， 图 像 拼接 模块 ， 包 含 如 下 部 分 : 
拼接 流水 线 
特点 寻找 和 匹配 图 像 
估计 旋转 
自动 校准 
图 片 重 针 
接 缝 估 测 
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e 曝光 补偿 

@ 图 片 混合 

(16) 【superres】 一 一 SuperResolution， 超 分 辨 率 技术 的 相关 功能 模块 。 

(17) [ts] — OpenCV 测试 相关 代码 。 

(18) 【video】 一 一 视频 分 析 组 件 ， 该 模块 包括 运动 估计 、 背 景 分 离 、 对 象 跟踪 等 视频 
处 理 相 关内 容 。 

(19) 【Videostab】 一 一 Video stabilization， 视 频 稳定 相关 的 组 件 。 





5.1.2 ”从 雪花 电视 谈 起 一 一 在 Python 中 使 用 OpenCV 

在 正式 讲解 OpenCV 在 Python 中 的 使 用 之 前 ， 读 者 首先 需要 了 解 一 个 概念 ， 那 就 是 使 用 
OpenCV 读 取 任何 图 片 均 是 将 其 转化 成 二 维 矩 阵 进行 。 

例如 ， 将 一 幅 图 片 使 用 OpenCV 读 取 到 内 存 中 ， 其 保存 形态 为 二 维和 矩阵 ， 以 2.4 节 中 读 取 
图 片 为 例 : 


jpg = cv2.imread("1.jpg") 





print (jpg.shape) 
打印 结果 如 下 : 
(398, 410, 3) 


可 以 看 到 ， 这 里 的 图 片 被 读 取 成 为 一 个 大 小 为 [398,410,3] 的 矩阵 ， 这 是 一 个 三 维和 矩阵 ， 由 
3 个 [398,410] 和 矩阵 构成 。 例 如 打印 第 一 个 矩阵 : 

jpg = cv2.imread("1.jpg") 

print (jpg[:, :,0]) 


结果 如 下 : 

EE 70. 67 65 ..- 116 117 116] 
[ 68 66 64 ... 117 122 120] 
[16521645617 77 L190129 1271] 
[| 
[ 60 46 42 ... 76 66 59] 
PS2 34 33€ EO NEeA 5v 


这 是 一 个 [398.410] 大 小 的 矩阵 ， 如 果 以 图 片 的 形式 显示 ， 结 果 如 图 5-3 所 示 。 
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$ AE N 
Lo WM 
图 5-3 单 幅 图 片 打 印 

有 兴趣 的 读者 可 以 打印 其 他 2 幅 单 页 画面 。 

下 面 使 用 一 个 有 趣 的 小 例子 对 本 节 进 行 一 个 总 结 ， 这 里 通过 random 函数 随机 生成 一 个 三 
维 数 据 并 将 其 进行 现实 ， 代 码 如 下 : 

【程序 5-1】 


import cv2 





import numpy as np 


while True: 
noiseTV = np.random.random( (600, 800, 3)) 
noiseTV *= 50 
noiseTV = noiseTV.round() 
cv2.imshow(noiseTV, noiseTV) 
if cv2.waitKey(1) & Oxff == ord('q'): 
break 


这 是 一 个 模仿 老式 黑白 电视 的 噪声 图 ， 有 兴趣 的 读者 可 以 自行 运行 查看 。 


5.2. opencv 基本 的 图 片 读 取 
OpenCV 可 以 读 取 各 种 类 型 的 图 像 数 据 ， 例 如 常用 的 jpg、bmp、png、tiff、pbm 等 。 除 此 


之 外 ，OpenCV 基本 上 还 支持 所 有 的 图 像 格 式 。 本 节 将 学 习 使 用 OpenCV 代码 对 图 片 进行 基本 
的 读 取 和 显示 操作 。 
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5.2.1. 基本 的 图 片 存储 格式 

在 介绍 OpenCV 的 使 用 之 前 ， 希 望 读者 能 够 了 解 基本 的 数据 存储 形式 。 在 计算 机 中 ， 图 
片 是 以 矩阵 的 形式 存储 在 存储 介质 中 的 。 

例如 ， 首 先 通过 Numpy 创建 一 个 长 、 宽 各 为 300 的 矩阵 ， 各 个 点 的 值 为 0。 














img = np.mat (np.zeros((300,300))) 

从 数值 上 看 , 这 是 一 个 [300,300] 的 矩阵 , 矩阵 中 每 个 具体 数值 为 0。 但 是 从 图 片 角度 来 看 ， 
它 表示 我 们 创建 了 一 个 300X300 像素 的 图 片 ， 其 中 每 个 像素 点 的 颜色 均 为 黑色 。 

通过 OpenCV 代码 显示 这 张 图 片 ， 代 码 如 下 : 














cv2.imshow("test",img) 
cv2.waitKey (0) 
第 一 行 是 cv2 输出 图 片 的 固定 写法 , 将 刚才 生成 的 一 个 矩阵 以 图 片 的 形式 在 使 用 者 输出 端 
显示 ， 之 后 waitKey 方法 要 求 输出 的 图 像 暂 时 等 待 ， 可 以 通过 手动 操作 的 形式 取消 图 片 显示 。 
完整 代码 如 程序 5-2 所 示 。 
【程序 5-2】 


import numpy as np 





import cv2 

img = np.mat (np.zeros((300,300))) 
cv2.imshow("test",img) 
cv2.waitKey (0) 


蛙 序 运 行 结果 如 图 5-4 所 示 。 





图 5-4 程序 运行 结果 
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um 在 图 像 生成 时 ,每 个 像素 都 是 由 一 个 8 位 的 整数 来 表示 的 , 即 每 个 像素 值 的 范围 是 0~255。 | 











补充 一 下 , 在 生成 像素 块 的 时 候 ， 有 时 需要 人 为 地 指定 数据 格式 , 例如 上 面 程序 语句 应 该 
以 如 下 方式 指定 : 


img = np.mat(np.zeros((300,300),dtype = np.uint8)) 








读者 可 以 自行 生成 一 个 多 维 矩 阵 ,之 后 通过 随机 注入 数值 的 方式 将 矩阵 填 满 ， 再 查看 显示 
li 的 结果 。 








细心 的 读者 可 能 已 经 发 现 , 在 本 例 中 ， 生 成 的 是 一 个 一 维 的 黑色 图 片 。 但 是 现实 中 的 图 片 
一 般 都 是 由 红 、 绿 、 蓝 三 种 颜色 所 构成 的 ， 即 基本 的 三 基色 ， 从 而 在 图 片 显示 时 由 一 个 3 通道 
的 数据 集 负责 图 片 的 整体 显示 。 

OpenCV 同样 提供 了 此 方法 : 


img = cv2.cvtColor(img,cv2.COLOR GRAY2BGR) 

这 里 强制 将 原始 的 一 维 图 片 转化 为 三 维 图 片 ， 读 者 可 以 通过 如 下 方法 查看 通道 数目 : 
print (img. shape) 

显示 结果 如 下 : 

(300，300，3) 

可 以 看 到 ， 原 本 一 维 的 数据 被 分 成 了 3 个 维度 ， 在 图 片 中 分 别 代表 R、G、B 三 个 颜色 通 


道 ， 虽 然 生成 的 图 片 依旧 是 黑色 ， 但 是 在 数据 处 理 时 整个 图 片 已 经 是 由 三 维 图 片 琶 加 而 成 。 
图 5-5 显示 的 是 一 个 3 通道 的 图 像 在 OpenCV 分 解 的 图 示 。 
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图 5-5 三 维 图 片 的 显示 和 存储 
可 以 看 到 , 一 个 图 片 被 分 解 成 一 个 3 个 维度 的 数组 , 每 个 维度 显示 一 个 颜色 的 值 。 值 得 一 
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提 的 是 ， 在 OpenCV 中 ， 使 用 的 是 与 大 多 数 RGB 通道 不 同 的 BGR 通道 ， 即 第 一 个 元 素 是 蓝 
f& (Blue) 、 第 二 个 颜色 是 绿色 (Green) 、 第 三 个 颜色 是 红色 (Red) 。 
请 读者 自行 打印 验证 。 


522 图像 的 读 取 与 存储 


对 于 基本 类 型 的 图 片 ，OpenCV 提供 了 图 片 的 读 取 与 写 入 操作 。imread 和 imwrite 方法 分 
别 是 OpenCV 的 读 方法 和 写 方法 。 代 码 如 下 : 

image = cv2.imread("jpgl.jpg",cv2.IMREAD GRAYSCALE) 

cv2.imwrite("jpgll.png",image) 

可 以 看 到 ,cv2 调用 了 imread 方法 从 当前 目录 下 读 取 了 文件 。 这 里 需要 注意 的 是 , 在 读 取 
的 同时 图 片 被 自动 读 取 为 灰 度 图 。 

第 二 行 代码 将 所 读 取 的 图 片 存储 到 当前 目录 下 , 这 里 传 入 2 个 参数 , 第 一 个 为 图 片 的 存储 
名 称 ， 并 且 图 片 由 jpg 格式 改变 为 png 格式 存储 ， 第 二 个 参数 为 内 存 中 所 要 存储 的 目标 。 

在 保存 的 时 候 ，OpenCV 没有 多 通道 或 者 单 通 道 这 一 说 法 , 根据 文件 设置 的 后 缀 名 和 对 应 
的 文件 维度 自动 判断 保存 的 通道 并 进行 自动 保存 。 

OpenCV 在 进行 数据 读 写 的 时 候 ,imread0 函 数 会 删除 所 有 图 片 的 alpha 通道 信息 ,imwrite() 
函数 则 要 求 输出 的 图 片 格式 为 BGR 或 者 灰 度 图 。 


5.2.3 图像 的 转换 


借 由 imwrite0 函 数 可 以 自由 地 对 图 像 存 储 的 格式 进行 转换 , 例如 将 jpg 文件 转化 为 png 格 
式 的 文件 ， 但 是 从 深入 到 更 底层 的 基础 上 看 ， 任 何 一 个 字 节 都 可 以 表示 成 0~255 的 任何 一 个 
数 。 在 程序 5-1 中 ,作者 通过 创建 矩阵 并 显 式 地 向 读者 展示 了 这 一 个 过 程 ， 下 面 将 更 为 详细 地 
描述 这 方面 的 内 容 。 

一 个 OpenCV 图 片 由 一 个 array 类 型 的 多 维 数组 所 构成 ， 每 个 维度 默认 是 8 位 ， 一 个 三 维 
的 BGR 图 像 就 可 以 认为 是 一 个 24 位 的 三 维 数组 。 

既然 图 片 可 以 被 人 为 地 表示 为 一 个 多 维 数组 , 并 且 其 在 计算 机 中 存储 的 本 质 也 是 如 此 , 那 
么 可 以 通过 访问 平常 数组 的 形式 访问 这 些 值 。 例 如 img[0,0] 或 者 img[0.0.0]， 这 里 前 2 个 值 是 
像素 的 坐标 ， 第 三 个 值 显 示 的 是 对 应 的 颜色 通道 。 

在 计算 机 中 , 任何 一 个 图 片 的 存储 都 占有 一 定 的 空间 。 为 了 减少 图 片 的 存储 ， 以 便于 在 有 
限 的 内 存 中 更 进一步 地 转换 ， 可 以 通过 Python 自 带 的 方法 将 每 个 图 片 转 化 成 标准 的 一 维 
Python bytearray 格式 ， 方 法 如 下 : 


imageByteArray = bytearray (image) 


程序 打印 结果 如 图 5-6 所 示 。 
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[Fixfaixfe xf fd\ tfta rE xFd\ FEF rfd\ FF FE rE rT xfe FENE] 
\zfc\Vzf8\zfd\zff\zfb\zff\zff\vzfc\Vzff\VzffVzfb\zff\zff\Vzfb\zff\VzflVzedNzf3\ze2\zd 
\zfd\zfd\rfd\zfd\rfd\rfe\rfe\rfe\rfe\rfe\rfe\rfe\rfe\rfe\rfe\rfe\rfe\rfe\rfe\rf: 
\zfd\zfe\xrfe\zfe\zfe\zfe\rfe\zff\zff\zff\zfF\zff\zfF\rfe\zfe\rfe\rfe\rfe\rfe\rf 
\zfd\zfd\xfd\zfe\xfe\zfe\zff\xff\xff\zfe\zfe\xfe\xfd\rfd\zfd\rff\xf9\xfe\rfd\zfT 
Vxfe xfe x£fx£fx£f x£f x£fx£ff afe xfe xfe xfe xfe xfe xfe xfe xfe xfe xfe xf. 
Vxfe xf Vx£e x £f Ax £f Uxfe x ££ xf E xfdx£fx£f fd x£f x £f x £d x£f x £f xfd x£f xfi 
\xfc\xf9\xfb\zfd\xfa\xfc\xff\xfd\xff\zff\xfe\xff\rfe\rfb\xfd\xfb\xf6\xf8\reQ\xe: 
\xf2\zf7\xff\xfc\xfe\zff\xfc\xfe\zff\xff\zff\xff\xfd\zfd\zff\xfc\xfe\xff\zfe\xf 
\adf\xe5\ade\xe5\afd\af6\afd\aff\af8\xff\xfe\afT\afe\afS\xee\af5\xec\aeS\xec\ae 
\xc9\zcO\xed\zd6\xcd\zda\zd5\xcb\zdb\xcl\zdr\zeT\zcb\zcl\zfl\xcd\xzc3\zf3\zcb\xe]| 
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\xf8\xf2\xfd\xfc\xf7\xff\rf5\xf0\rf9\re6\rel\xea\xel\rdc\xe5\rec\xe7 xfO xf8 Vf: 








图 5-6 Python bytearray 的 存储 格式 


图 5-6 中 显示 的 只 是 一 部 分 数值 ， 具 体 可 以 请 读者 自行 打印 验证 。 
同样 ，bytearray 可 以 通过 和 拖 阵 重 构 的 方法 还 原 为 原本 的 图 片 算 阵 ， 标 准 的 写法 如 下 ; 


imageBGR = np.array (imageByteArray) .reshape (300,300) 


np 是 前 期 导入 的 NumPy 模块 的 简称 ， 通 过 array 方法 读 取 已 经 被 转化 后 的 数组 文件 ， 之 
后 将 数组 重 构成 一 个 [300.300] 的 矩阵 。 完 整 代码 如 下 : 


【程序 5-3】 
import numpy as np 
import cv2 
image = np.mat (np.zeros((300,300))) 
imageByteArray = bytearray (image) 
print (imageByteArray) 
imageBGR = np.array(imageByteArray).reshape (300,300) 
cv2.imshow ("cool",imageBGR) 


cv2.waitKey (0) 


程序 5-3 将 生成 的 一 个 [300.300] 和 矩阵 按 数组 的 形式 转化 并 打印 ， 之 后 通过 调用 NumPy 中 
数组 处 理 函 数 将 其 重 构 并 显示 。 有 具体 内 容 请 读者 自行 完成 。 


【程序 5-4】 
import cv2 
import numpy as np 
import os 


randomByteArray = bytearray (os.urandom(120000)) 
flatNumpyArray = np.array(randomByteArray) .reshape (300,400) 
cv2.imshow ("cool",flatNumpyArray) 

cv2.waitKey (0) 


程序 5-4 为 读者 展示 了 随机 生成 的 一 个 长 度 为 120000 的 数组 ， 之 后 将 其 重 构 为 [300,400] 
的 矩阵 ， 再 将 其 在 显示 器 上 显示 。 


79 


5.24 使 用 NumPy 模块 对 图 像 进 行 编 辑 
前 面 已 经 对 一 幅 图 像 在 计算 机 中 的 生成 、 存 储 以 及 OpenCV 操作 做 了 基本 的 介绍 ， 但 是 
只 掌握 这 些 还 不 够 ， 对 图 像 处 理 来 说 ， 需 要 更 多 的 手段 和 方法 对 其 进行 操作 和 处 理 。 
前 面 也 通过 代码 进行 了 演示 。 在 OpenCV 中 ， 最 便捷 的 获取 图 像 的 方式 是 使 用 imread K 
数 来 读 取 数据 。 该 函数 能 够 从 目标 位 置 读 取 一 个 图 像 (是 一 个 数组 ) ， 并 且 根 据 设置 的 不 同 可 
能 是 二 维 的 也 可 能 是 三 维 的 。 
下 面 通过 一 个 简单 的 例子 说 明 如 何 利用 数组 的 操作 来 修改 图 片 的 颜色 。 
【程序 5-5】 


import cv2 














B 














import numpy as np 

img = np.zeros((300,300)) 
img[0,0] = 255 
cv2.imshow("img",img) 


cv2.waitKey (0) 

程序 5-5 生成 了 一 个 [300,300] 的 黑色 方块 ， 之 后 将 矩阵 的 [0，0] 位 置 修改 为 数值 255， 用 
颜色 表示 的 话 就 是 白色 的 一 个 点 , 那么 整体 结果 就 是 一 个 方块 的 左上 角 有 一 个 白色 的 点 。 具体 
如 图 5-7 所 示 。 





图 5-7 具有 一 个 白 点 的 黑色 图 
如 果 需 要 对 一 行 或 者 一 列 进行 操作 ，NumPy 同样 提供 了 方便 的 操作 方法 。 


【程序 5-6】 


import cv2 


import numpy as np 

img = np.zeros((300,300)) 
img[: ,10] = 255 

img[10,: ] = 255 
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cv2.imshow ("img",img) 


cv2.waitKey (0) 


这 样 的 操作 是 对 生成 的 黑色 图 片 进行 操作 ， 画 出 了 横 、 竖 两 条 白 线 ， 有 具体 如 图 5-8 所 示 。 





B 
图 5-8 含有 白 线 的 黑色 图 
使 用 NumPy 数组 操作 的 方式 对 图 片 进行 处 理 主要 的 原因 有 两 个 : 首先 , NumPy 是 专门 进 


行 数组 操作 的 Python 模块 ， 有 很 多 专门 的 处 理 函 数 ， 以 完成 更 多 的 任务 ， 其 次 ， 它 在 性 能 上 
是 经 过 专门 优化 的 ， 在 规模 较 大 的 数据 矩阵 上 有 更 好 的 操作 性 。 








E e 使 用 同样 的 方法 可 以 对 矩阵 的 一 个 块 进行 操作 ， 这 个 操作 请 读者 自行 完成 。 





OpenCV 的 卷 积 核 处 理 


在 上 一 节 中 介绍 了 基本 的 图 像 创 建 等 操作 ， 读 者 对 使 用 OpenCV 对 图 像 进行 最 基本 的 操 
作 有 了 了 解 , 但 是 对 图 像 进 行 读 取 仅仅 是 一 个 最 基本 的 开始 , 对 图 像 的 处 理 才 是 读者 真正 需要 
掌握 的 内 容 。 


5.3.1 计算 机 视觉 的 三 种 不 同色 彩 空 间 


在 色彩 学 中 ， 人 们 建立 了 多 种 色彩 模型 ， 以 一 维 、 二 维 、 三 维 甚 至 四 维 空间 坐标 来 表示 某 
一 色彩 。 这 种 坐标 系统 所 能 定义 的 色彩 范围 即 色彩 空间 。 

OpenCV 中 可 以 操作 和 使 用 的 色彩 空间 有 上 百 种 之 多 , 但 是 对 于 计算 机 视觉 处 理 来 说 , 一 
般 常用 的 色彩 空间 有 三 种 ， 即 灰 度 、BGR UR HSV. 


e XE: 将 图 片 中 的 彩色 信息 去 除 ， 只 保留 黑白 信息 的 色彩 空间 称 为 灰 度 空间 。 一 般 而 
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言 ， 灰 度 空间 对 人 脸 的 处 理 特别 有 效 。 

© BGR: 蓝 绿 红 空 间 。 在 这 个 空间 中 ， 每 个 像素 都 是 由 一 个 三 维 数组 表示 的 ， 分 别 代 
表 蓝 、 绿 、 红 这 三 种 颜色 。BGR 也 是 OpenCV pe 空间 。 

e HSV: H £638, S 是 饱和 度 ，V 是 黑色 度 ， 一 般 用 于 数字 相机 对 彩色 图 片 的 处 理 。 








dm 在 学 习 前 一 小 节 和 本 小 节 的 内 容 时 , 有 读者 可 能 会 尝试 使 用 不 同 的 颜色 合成 对 彩色 图 片 进 
行 操作 , 但 是 色彩 合成 的 结果 并 不 是 如 文字 描述 的 那样 。 这 实际 上 是 由 于 显示 器 的 显示 色 
素 不 同 造成 的 差异 ， 请 读者 不 要 怀疑 OpenCV 的 显示 差异 。 








5.3.2 ” 卷 积 核 与 图 像 特征 提取 


在 OpenCV 以 及 平常 的 图 像 处 理 中 ， 卷 积 核 是 一 种 常用 的 图 像 处 理工 具 。 其 主要 方法 是 
通过 确定 的 核 块 来 检测 图 像 的 某 个 区 域 ,之 后 根据 所 检测 的 像素 与 其 周围 存在 的 像素 的 亮度 差 
值 来 改变 像素 明亮 度 。 


例如 : 

kernel33 = np.array[[-1,-1,-1], 
[-1,8,-1], 
[iilii] 


这 是 一 个 [3.3] 的 卷 积 核 , 其 作用 是 计算 中 央 像 素 与 周围 临近 像素 的 亮度 差 值 。 如 果 亮 度 差 
值 差 距 过 大 ， 本 身 图 像 的 中 央 亮 度 较 少 ， 那 么 经 过 卷 积 核 以 后 ， 中 央 像 素 的 亮度 会 增加 。 即 如 
果 一 个 像素 比 它 周围 的 像素 更 加 突出 ， 就 会 提升 其 本 身 的 亮度 。 


与 之 相反 的 是 : 

kernel33 = np.array[[1,1,1], 
[1,-8,1], 
[1,1,11] 


这 个 核 的 作用 是 减少 中 心 像素 的 亮度 ,如果 一 个 像素 比 其 周围 的 像素 更 加 昏暗 , 它 的 亮度 
就 会 更 进一步 地 减少 。 
【程序 5-7】 
import numpy as np 


import cv2 
from scipy import ndimage 


kernel33 = np.array([[-1,-1,-1], 
[71,8,-1], 


[iiri 


kernel33 D = np.array([[1,1,1], 
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[1,-8,1], 
[1,1,1]]) 


img = cv2.imread("lena.jpg",0) 

linghtImg = ndimage.convolve (img,kernel33 D) 
cv2.imshow("img",linghtImg) 

cv2.waitKey () 


程序 5-7 执行 结果 如 图 5-9 所 示 。 





图 5-9 执行 降低 亮度 后 的 图 片 


对 于 程序 5-7， 首 先 需要 介绍 的 是 ndimage， 它 是 一 个 处 理 多 维 图 像 的 函数 库 ， 其 中 包括 
图 像 滤波 器 、 傅 立 叶 变换 、 图 像 的 旋转 拉 伸 以 及 测量 和 形态 学 处 理 等 。 

这 里 使 用 上 文 定义 的 一 个 3X3 卷 积 核 将 读 入 的 图 像 进 行 颜 色 降低 ， 只 是 由 于 卷 积 核 降低 
的 程度 较 大 ， 最 后 完全 失真 ， 使 得 图 片 失去 了 能 够 表现 其 形式 的 特征 图 谱 。 











im 卷 积 核 是 图 像 处 理 中 一 个 非常 重要 的 内 容 , 不 仅 在 OpenCV 中 ， | 
I 中 也 将 大 量 使 用 。 








换 一 种 卷 积 特征 提取 的 方法 , 借用 高 斯 模糊 (这 也 是 一 种 特征 提取 的 常用 函数 ) 进行 处 理 ， 
结果 如 图 5-10 所 示 。 
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【程序 5-8】 
import numpy as np 
import cv2 


from scipy import ndimage 


img = cv2.imread("lena.jpg",0) 

blurred = cv2.GaussianBlur (img, (11,11),0) 
gaussImg - img - blurred 
cv2.imshow("img",gaussImg) 

cv2.waitKey() 


程序 5-8 为 读者 展示 了 使 用 高 通 滤波 后 处 理 的 图 像 , 之 后 求 得 高 通 滤波 图 与 原始 图 的 差 值 
并 显示 ， 能 更 好 地 对 图 像 的 特征 进行 提取 ， 这 也 是 一 种 特征 提取 的 常用 方法 。 实 际 上 ， 这 是 现 
实 中 最 常用 的 方法 。 


5.8.8 APREN 


在 OpenCV 中 ， 大 多 数 对 图 像 处 理 的 函数 都 会 使 用 内 置 的 卷 积 核 。 卷 积 核 在 前 面 已 经 介 
绍 了 ， 是 通过 NumPy 创建 一 个 三 维 数组 来 实现 的 。 下 面 的 程序 段 实现 一 个 卷 积 核 的 计算 : 
def convolve (dateMat, kernel): 
mn = dateMat.shape 
km,kn = kernel.shape 
newMat = np.ones(((m - km + 1), (n - kn + 1))) 
tempMat = np.ones(((km), (kn))) 
for row in range(m - km + 1): 
for col in range(n - kn + 1): 
for m k in range (km): 
for n k in range(kn): 
tempMat[m k,n k] = dateMat[ (row + m k), (col + n k)] * kernel[m k,n k] 
newMat[row,col] = np.sum(tempMat) 


return newMat 


通过 传 入 的 矩阵 ， 计 算 经 过 卷 积 处 理 后 的 结果 以 newMat 的 形式 返回 。 具体 结果 请 读者 自 
行 测试 完成 。 

通过 上 面 的 代码 段 可 以 看 到 , 实际 上 所 谓 的 卷 积 核 就 是 一 组 被 赋予 初始 值 的 权重 , 它 决 定 
了 如 何 对 已 有 的 像素 块 取 值 来 计算 新 的 像素 块 。 卷 积 核 也 称 为 卷 积 矩阵 , 其 作用 是 对 一 个 区 域 
内 的 临近 像素 做 出 计算 ,这 种 计算 又 被 称 为 卷 积 计算 .通常 基于 核 的 滤波 器 被 称 为 卷 积 滤波 器 。 

OpenCV 中 也 提供 了 常用 的 卷 积 核 函 数 一 一 fileter2D， 通 过 程序 设计 人 员 指 定 的 任意 核 或 
者 卷 积 矩 阵 与 目标 矩阵 进行 计算 。 为 了 更 好 地 理解 ， 请 参考 图 5-11。 
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= 1#172*071#1"0*073# (-4) -140*1*172#0+1#1 = -8 





图 5-11 卷 积 核 的 计算 形式 


卷 积 核 是 一 个 二 维 数组 ， 其 中 一 半 使 用 奇数 行列 进行 标识 。 中 心 点 对 应 于 当前 计算 图 像 
中 最 感 兴趣 的 像素 位 置 。 其 他 元 素 对 应 于 像素 周边 的 临近 像素 点 ， 每 个 元 素 都 有 一 个 值 ， 这 
些 值 合 在 一 起 被 称 为 像素 上 的 权重 。 

例如 ， 图 5-8 中 感 兴趣 的 像素 权重 为 -4， 而 其 临近 像素 的 值 为 0 或 者 1。 计 算 过 程 是 对 于 
感 兴趣 的 值 乘 以 -4， 之 后 与 周围 的 邻近 像素 计算 机 进行 计算 。 在 图 5-8 中 ， 要 求 感 兴趣 的 值 要 
低 于 周边 的 值 ， 那 么 通过 卷 积 核 的 计算 以 后 ， 这 个 值 被 人 为 地 加 大 差距 。 顺 便 值得 一 提 的 是 
这 个 处 理会 让 图 像 锐 化 ， 因 为 该 像素 值 的 值 与 周边 值 的 差距 增 大 , 如果 人 为 地 减少 某 个 目标 像 
素 值 和 周边 值 的 差距 ， 就 会 让 整个 图 片 钝 化 。 

filter2D 的 具体 使 用 如 下 : 


cv2.filter2D(src,-1,kernel,dst) 


Hp, sre 是 目标 图 片 ，-1 指 的 是 每 个 目标 图 片 的 通道 位 深 数 ， 一 般 要 求 目标 图 片 和 生成 
图 片 的 位 深 数 一 样 ，kernel 是 图 片 所 使 用 的 卷 积 核 和 矩阵 。 

这 里 需要 注意 的 是 ， 卷 积 核 中 所 有 的 权重 相 加 的 和 为 0。 这 样 做 的 目的 是 在 卷 积 核 完成 
后 ， 最 终 会 得 到 一 个 边缘 突出 的 图 像 卷 积 结果 ， 边 缘 被 转化 为 白色 ， 而 非 边缘 区 域 被 转化 为 
黑色 。 








um 锐 化 、 边 缘 检测 以 及 模糊 效果 处 理 都 需要 使 用 不 同 的 核 。 | 











5.4 ghg 


本 章 介绍 了 色彩 空间 的 概念 ， 学 习 了 基本 OpenCV 的 图 片 读 取 以 及 二 进 制 的 转换 操作 ， 
对 后 续 图 片 存储 的 作用 很 大 。 很 多 已 有 的 标准 图 片 库 都 是 使 用 此 种 方式 对 图 片 进行 存储 的 。 

此 外 ,本 章 还 着 重 介 绍 了 卷 积 核 的 使 用 , 说 明了 卷 积 核 的 计算 形式 和 本 质 特点 。 这 些 内 容 
在 后 面 将 要 介绍 的 卷 积 神经 网 络 中 有 非常 重要 的 作用 。 本 章 内 容 虽 然 不 多 , 但 是 很 重要 , 希望 
读者 能 够 认真 学 习 并 掌握 。 
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第 6 章 
< OpenCV 图 像 处 理 实战 > 


在 上 一 章 中 ， 我 们 对 OpenCV 做 了 一 个 基础 性 的 介绍 ， 内 容 包括 最 基本 的 图 片 读 取 和 对 
其 进行 卷 积 化 的 操作 。 除 此 之 外 ，OpenCV 还 有 各 种 不 同 的 模块 ， 例 如 视频 的 实时 获取 、 摄 像 
头 定位 、 目 标识 别 、 运 动 分 析 等， 这 些 都 是 在 TensorFlow 中 需要 使 用 的 内 容 。 

本 章 将 继续 介绍 OpenCV 的 使 用 ， 主 要 偏重 于 图 片 的 调节 ， 这 是 使 用 TensorFlow 进行 图 
要 的 一 个 步骤 。 图 片 的 数据 量 也 是 TensorFlow 进行 图 片 识别 的 基础 ， 因 此 使 
用 OpenCV 进行 图 片 训练 时 需要 大 量 的 图 片 数 据 ， 而 OpenCV 提供 的 多 种 函数 可 以 对 图 片 进 
行 修改 ， 从 而 提供 更 多 的 基础 数据 ， 并 且 对 图 片 特征 的 提取 也 能 够 在 训练 过 程 中 辅助 
TensorFlow 的 训练 工作 。 





图 片 的 自由 缩放 以 及 边缘 裁剪 


图 像 的 基本 处 理 一 般 是 对 图 片 的 扩 缩 裁 挖 ,， 指 的 是 对 一 张 图 片 进 行 扩展 、 缩减、 裁剪 或 者 
在 图 片 中 挖 去 一 部 分 形成 一 个 新 的 图 片 。 当 然 除 此 之 外 还 有 对 图 片 的 偏 移 、 倾斜 等 操作 ,同样 
可 以 生成 一 个 在 计算 机 视觉 意义 上 的 新 图 片 。 


6.1.1 图 像 的 扩 缩 裁 控 


简单 地 实现 对 图 片 的 缩放 。 其 使 用 方法 如 下 : 

img = cv2.resize (dst, (m,n)) 

resize 函数 内 有 2 个 参数 ， 第 一 个 是 目标 图 像 ， 第 二 个 是 缩减 的 比例 。 

可 顾 一 下 前 面 的 【程序 5-5】， 生 成 的 图 片 从 数值 上 看 ， 是 一 个 [300,300] 的 矩阵 ， 和 矩阵 中 

每 个 具体 数值 为 0。 但 是 从 图 片 角度 来 看 ， 作 者 创建 了 一 个 300X300 像素 的 图 片 ， 其 中 每 个 
通过 OpenCV 代码 显示 这 张 图 片 ， 代 码 如 下 : 














cv2.imshow("test",img) 


cv2.waitKey (0) 
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先 将 一 个 图 片 读 取 到 内 存 中 ， 之 后 重新 构造 ， 将 其 改变 成 300X300 的 矩阵 ， 但 是 此 时 图 
片 的 整体 没有 变化 ， 只 是 外 形 发 生 了 变化 。 

如 果 需 要 对 图 片 进行 截取 ， 就 需要 用 到 以 下 函数 : 

img = cv2.resize (dst) 

patch tree — img[m:,n k:g] 

这 里 使 用 截取 的 方法 对 图 片 进行 截取 ， 其 中 msn 以 及 k、g 分 别 是 图 片 截取 空间 的 大 小 。 
截取 前 后 的 效果 对 比如 图 6-1 所 示 。 





图 6-1 截取 后 的 图 片 


6.1.2 图像 色调 的 调整 


CV2 除了 能 够 对 图 像 的 区 域 进行 设置 、 自 由 拉 伸 和 裁剪 已 有 图 像 外 ， 还 可 以 像 其 他 图 片 
操作 软件 工具 一 样 对 图 片 的 色彩 和 亮度 进行 调节 处 理 ， 即 上 文 所 介绍 的 对 图 片 的 HSV 进行 处 
理 。 

HSV 中 ，H 指 的 是 色调 ，S 是 饱和 度 ，V 是 明暗 度 。OpenCYV 采用 HSV 对 色彩 进行 处 理 
的 最 大 的 好 处 就 是 可 以 在 操作 时 忽略 图 像 的 三 通道 性 质 ， 直 接 通 过 操作 HSV 进行 处 理 。 对 于 
具体 的 数值 ，H 的 取 值 是 [0,180]， 其 他 两 个 通道 的 取 值 都 是 [0.255]。 程 序 6-1 给 出 改变 色调 的 
处 理 结果 ， 每 个 像素 点 从 整体 色调 中 减 去 30 个 单位 的 色调 ， 即 黄色 被 大 幅度 消减 。 

【程序 6-1】 


import cv2 





img = cv2.imread("lena.jpg") 

img hsv = cv2.cvtColor(img,cv2.COLOR BGR2HSV) 

turn green hsv = img hsv.copy() 

turn green hsv[:,:,0] = (turn green hsv[:,:,0] - 30 ) $ 180 
turn green img = cv2.cvtColor(turn green hsv,cv2.COLOR HSV2BGR) 
cv2.imshow("test",turn green img) 

cv2.waitKey (0) 


结果 如 图 6-2 所 示 。 
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图 6-2 调整 色调 后 的 图 片 








E 程序 6-1 中 最 关键 的 代码 为 第 5 行 : 


| 


turn green hsv[:,:,0] = (turn green hsv[:,:,0] - 30 ) $ 180 








标 ， 


其 中 需要 讲解 的 是 等 式 左边 的 参数 ， 括 号 中 第 一 个 和 第 二 个 参数 分 别 代表 图 像 矩 阵 的 坐 
第 三 个 参数 代表 HSV 的 选择 Co 指 的 是 色调 ，1 指 的 是 饱和 度 ，2 是 明暗 度 ) 。 
如 果 需 要 对 图 像 的 饱和 度 和 明暗 度 进行 调节 ， 可 使 用 如 下 程序 。 


【程序 6-2】 
import cv2 
img = cv2.imread("lena.jpg") 
img hsv = cv2.cvtColor (img,cv2.COLOR BGR2HSV) 
less color hsv = img hsv.copy() 
less color hsv[:, :, 0] - less color hsv[:, :, 0] * 0.6 
turn green img = cv2.cvtColor(less color hsv, cv2.COLOR HSV2BGR) 
cv2.imshow("test",turn green img) 


cv2.waitKey (0) 








ua 有 读者 可 能 会 问 ， 对 饱和 度 行进 调节 时 ， 括 号 中 的 第 三 个 参数 是 否 应 为 1? 其 实 使 用 0 或 


( 


者 1 只 是 在 不 同 的 层 上 进行 变换 ， 都 是 可 以 对 饱和 度 进行 调节 ， SE 








程序 62 改变 了 图 像 的 饱和 度 ， 使 色调 变 灰 ， 并 减少 了 一 定 的 颜色 艳 度 。 明 瞳 度 的 改变 


请 读者 自行 完成 。 


如 果 要 做 更 进一步 的 处 理 ， 例 如 提高 细节 ， 这 里 就 需要 使 用 Gamma 计算 。 虽 然 Gamma 


变换 主要 是 为 了 减少 计算 机 视觉 与 人 眼 视觉 的 差异 而 做 出 的 计算 方式 ， 但 是 在 深度 学 习 中 可 
以 作为 噪声 修改 的 方式 增 大 数据 量 。 
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【程序 6-3】 
import cv2 
import numpy as np 
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import matplotlib.pyplot as plt 


img = plt.imread("lena.jpg") 

gamma change — [np.power (x/255,0.4) * 255 for x in range(256)] 
gamma img = np.round(np.array(gamma change)).astype (np.uint8) 
img corrected = cv2.LUT(img, gamma img) 

plt.subplot (121) 

plt.imshow (img) 

plt.subplot (122) 

plt.imshow(img corrected) 

plt.show() 


6.1.3 图 像 的 旋转 、 平 移 和 翻转 
对 图 像 的 旋转 、 平 移 以 及 翻转 变换 是 图 像 处 理 的 常用 手段 ， 也 是 深度 学 习 对 图 片 处 理 的 


常用 方法 ， 可 以 极 大 地 增加 数据 量 。 
OpenCV 中 图 像 的 变换 主要 通过 仿 射 变换 矩阵 和 函数 warpAffine0 完 成 。 仿 射 变换 矩阵 的 


模板 如 下 : 
| ao 2 


ao an b 


需要 说 明 的 是 ，a 是 线性 变换 矩阵 ， 是 图 片 的 平移 项 。 
具体 使 用 的 例子 如 程序 6-4 所 示 。 


【程序 6-4】 
import cv2 
import numpy as np 
img = cv2.imread("lena.jpg") 
M copy img - np.array([ 
[0, 0.8, -100], 
[0.8, 0, -12] 
], dtype-np.float32) 
img change = cv2.warpAffine(img, M copy img, (300,300)) 
cv2.imshow("test",img change) 


cv2.waitKey (0) 

Jh. M copy img 是 仿 射 变 换 和 矩阵， 这 里 前 2 个 矩阵 是 指 将 已 有 图 形 缩小 为 原来 的 8096 
后 逆 时 针 旋转 90 度 ， 之 后 向 左 平移 100 个 像素 ,并 向 下 平移 12 个 像素 。 本 例 效果 如 图 6-3 所 
示 ， 程 序 6-4 中 主要 使 用 了 CV2 的 warpAffine 函数 〈 仿 射 变换 函数 ) 。 
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图 6-3 仿 射 变换 后 的 图 片 











如 果 需 要 生成 大 量 的 图 像 ， 那 么 只 需要 通过 仿 射 变换 矩阵 随机 生成 一 系列 数 ， 即 可 获得 大 
i 量 的 随机 变换 图 片 ， 这 里 请 读者 自行 完成。 











使 用 OpenCV 扩大 图 像 数 据 库 


前 面 章节 介绍 了 OpenCV 的 基本 使 用 ， 这 些 内 容 不 仅仅 是 为 了 学 习 TensorFlow， 更 是 为 
了 学 习 对 图 像 训 练 的 其 他 内 容 服务 。 因 为 无 论 使 用 何 种 算法 和 框架 对 神经 网 络 进行 训练 , 图 片 
的 数据 量 始终 是 一 个 决定 训练 模型 好 坏 的 重要 前 提 。 数据 扩展 是 训练 模型 的 一 个 常用 手段 , 对 
于 模型 的 鲁 棒 性 以 及 准确 率 都 有 非常 重要 的 帮助 。 

本 节 将 使 用 OpenCV 对 已 有 的 图 片 数据 集 进 行 处 理 ， 人 为 地 扩大 样本 量 ， 从 而 达到 扩大 
图 像 数 据 库 的 目的 。 


6.2.1 图 像 的 随机 栽 剪 

图 片 的 随机 裁剪 是 一 个 常用 的 扩大 图 像 数 据 库 的 方法 , 因为 大 多 数 图 片 数 据 在 进入 模型 之 
前 都 要 变 成 统一 大 小 。 虽 然 图 片 的 大 小 相同 ,但 是 不 同 的 裁剪 位 置 却 能 够 提供 更 多 的 数据 样本 ， 
从 而 增加 了 图 片 数据 库 的 内 容 。 

图 6-4 展示 了 采用 随机 数 的 方式 截取 图 像 的 一 个 简单 算法 。 
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64 仿 射 变换 后 的 图 片 


算法 首先 确定 需要 的 图 片 大 小 ， 再 在 左上 角 计 算出 裁剪 后 剩 下 的 长 宽 ， 之 后 在 其 中 随机 
取得 一 点 作为 起 始点 ， 从 中 截取 所 需要 的 面积 。 具 体 代码 如 程序 6-5 所 示 。 


【程序 6-5】 
import cv2 
import random 


img = cv2.imread("lena.jpg") 

width,height,depth = img.shape 

img width box = width * 0.2 

img height box = height * 0.2 

for _ in range(9): 
start pointX = random.uniform(0, img width box) 
start pointY - random.uniform(0, img height box) 
copyImg = img[start pointX:200, start pointY:200] 
cv2.imshow("test", copyImg) 
cv2.waitKey (0) 


这 里 自动 生成 了 9 个 截图 后 的 图 片 ， 请 读者 自行 完成 测试 。 


6.22 图像 的 随机 旋转 变换 

图 像 的 随机 旋转 变换 是 相对 图 像 旋转 平移 而 言 的 ， 在 对 数据 库 文件 进行 扩大 时 ， 和 希望 整 
个 图 形 不 要 有 变化 平移 或 者 旋转 图 片 后 ， 会 使 得 图 片 变形 ， 虽 然 有 时 变形 的 图 片 可 以 更 好 地 
对 深度 学 习 模型 进行 训练 ， 但 是 建议 读者 选择 真实 图 片 进行 训练 。 

OpenCV 为 了 解决 这 个 问题 ， 提 供 了 一 个 函数 ， 即 getRotationMatrix2D。 

getRotationMatrix2D(...) 

getRotationMatrix2D(center, angle, scale) 

从 代码 上 看 ，getRotationMatrix2D 需要 提供 3 个 参数 ， 分 别 是 center、angle 以 及 scale. 
第 一 个 参数 是 图 片 的 依托 中 心 ， 也 就 是 以 哪 一 点 为 原点 进行 选择 。 第 二 个 参数 指 的 是 图 片 逆 
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时 针 旋 转 的 角度 ， 第 三 个 参数 是 缩放 的 倍数 。 有 具体 代码 如 程序 6-6 所 示 。 
【程序 6-6】 


import cv2 


img = cv2.imread("lena.jpg") 

rows,cols,depth = img.shape 

img change = cv2.getRotationMatrix2D((cols/2,rows/2),45,1) 
res — cv2.warpAffine(img,img change, (rows,cols)) 
cv2.imshow("test",res) 

cv2.waitKey (0) 


img change 对 图 像 进行 了 变换 ，warpAffine 对 图 片 重新 做 了 压缩 和 实现 。 图 6-5 所 示 的 图 
片 以 中 心 为 原点 ， 进 行 了 逆 时 针 45 度 的 旋转 。 当 然 此 时 会 有 黑 边 ， 如 果 想 要 去 除 黑 边 ， 就 需 
要 重新 设 定 一 个 画 框 。 这 里 作者 不 再 补充 ， 请 读者 自行 完成 。 








图 6-5 旋转 变换 后 的 图 片 











dm 如 果 scale (BEL, BLAASERARCTDUERN ACT -MAER | 








6.23 图像 色 彩 的 随机 变换 

最 后 一 种 方法 就 是 对 图 像 的 色彩 做 随机 变换 ， 因 为 图 像 在 OpenCV 中 是 以 HSV 形式 存储 
的 ， 所 以 色彩 变换 是 对 其 色调 、 饱 和 度 和 明暗 度 的 改变 。 

具体 内 容 请 参照 6.1.2 小 节 的 内 容 ， 程 序 代码 如 程序 6-7 所 示 。 


【程序 6-7】 
import cv2 
import numpy as np 
img = cv2.imread("lena.jpg") 
img hsv = cv2.cvtColor (img,cv2.COLOR BGR2HSV) 
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turn green hsv = img hsv.copy() 


turn green hsv[:,:,0] = (turn green hsv[:,:,0] + np.random.random() ) $ 180 
turn green hsv[:,:,1] = (turn green hsv[:,:,1] + np.random.random() ) $ 180 
turn green hsv[:,:,2] = (turn green hsv[:,:,2] + np.random.random() ) $ 180 


turn green img — cv2.cvtColor(turn green hsv,cv2.COLOR HSV2BGR) 
cv2.imshow("test",turn green img) 
cv2.waitKey (0) 


代码 中 分 别 对 图 像 的 了 s. v 做 了 设 定 ， 并 进行 了 随机 化 的 调整 。 








im 对 于 HSV， 可 以 设 定 一 个 小 小 的 阅 值 ， 并 在 阅 值 范围 内 进行 调整 。 除 此 之 外 ， 还 可 
[ 以 在 HSV 后 进行 一 次 Gamma 变换 ， 这 不 是 为 了 更 好 地 适应 人 眼 ， 而 是 在 图 像 中 加 入 
一 定 的 噪声 。 











6.2.44 ”对 鼠标 的 监 


使 用 鼠标 在 生成 的 图 片上 标记 出 目标 位 置 是 基本 的 数据 处 理 内 容 .鼠标 操作 属于 用 户 接口 
操作 ， 在 OpenCV 中 同样 有 相关 的 函数 可 以 实现 ， 主 要 由 mouse_event 完成 。 

mouse event 函数 的 功能 是 监控 鼠标 操作 ， 对 鼠标 的 点 击 、 移 动 以 及 放 开 做 出 反应 ， 根 据 
不 同 的 操作 进行 处 理 。 

对 鼠标 的 监控 主要 通过 OpenCV 内 置 的 函数 完成 ， 其 事件 总 共有 10 种 ， 从 0-9 依次 为 : 


*define CV EVENT MOUSEMOVE 0 滑动 

#define CV EVENT LBUTTONDOWN 1 左 键 点 击 
#define CV EVENT RBUTTONDOWN 2 右键 点 击 
*define CV EVENT MBUTTONDOWN 3 中 键 点 击 
#define CV EVENT LBUTTONUP 4 左 键 释放 
#define CV EVENT RBUTTONUP 5 右键 释放 
#define CV EVENT MBUTTONUP 6 中 键 释放 
#define CV EVENT LBUTTONDBLCLK 7 左 键 双击 
4define CV EVENT RBUTTONDBLCLK 8 右键 双击 
4define CV EVENT MBUTTONDBLCLK 9 中 键 释放 


当 函 数 事件 完成 后 ， 会 返回 x、? 值 ， 分 别 代表 事件 发 生 时 的 (x) 坐 标 。 窗 口 左上 默认 为 
原点 ， 右 边 为 x 轴 ， 向 下 为 y 轴 。 


【程序 6-8】 


import cv2 


def on mouse(event, x, y, flags, param): 
rect start = (0,0) 
rect end = (0,0) 


# 鼠标 左 键 按 下 ， 抬 起 ， 双 击 
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if event == cv2.EVENT LBUTTONDOWN: 
rect start = (x,y) 
elif event == cv2.EVENT LBUTTONUP: 
rect end = (x, y) 
cv2.rectangle(img, rect start, rect end, (0,255,0), 2) 
img = cv2.imread("lena.jpg") 
cv2.namedWindow('test') 


cv2.setMouseCallback("test",on mouse) 


while(1): 


cv2.imshow("test",img) 


if cv2.waitKey(1) & OxFF == ord('q'): 
break 
cv2.destroyAllWindows() 


当 鼠 标 被 按 下 时 触发 鼠标 DOWN 事件 , 位 置 点 被 记录 ; 当 鼠 标 被 弹 起 时 重新 记录 位 置 点 。 
之 后 OpenCV 使 用 rectangle 函数 画 出 框 型 。 

这 里 需要 说 明 的 是 ， 在 定义 on_mouse 函数 时 使 用 了 回调 函数 ， 自 动 将 调 入 方 传 入 函数 内 
部 ，rectangle 接受 调 入 的 img 图 像 ， 在 其 上 做 出 图 像 显 示 。 具 体内 容 请 读者 自行 完成 。 


6.3 本章 小 结 


在 本 章 中 主要 学 习 了 采用 OpenCV 对 图 像 做 进 阶 处 理 的 方法 ， 介 绍 了 使 用 OpenCV 对 图 
片 进行 自由 缩放 、 旋 转 平移 和 HSV 方面 的 调整 。 

掌握 这 些 方法 的 主要 目的 是 , 能够 对 图 片 样本 数据 库 进 行 扩容 。 图 片 样本 库容 量 的 多 少 是 
对 样本 模型 训练 程度 好 坏 的 一 个 决定 性 因素 。 当 然 除 了 本 章 中 介绍 的 一 些 方法 外 , 还 有 更 多 可 
以 对 图 片 继续 微调 修改 的 方法 ， 我 们 将 会 在 后 续 的 学 习 中 介绍 。 
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相信 读者 在 读 到 本 章 的 时 候 一 定 怀 着 非常 兴奋 的 心情 , 但 是 别 忙 , 在 踏 入 复杂 和 烦人 的 理 
论 学 习 之 前 ， 为 什么 不 先 在 “游乐 场 ”里 玩 一 会 呢 。 

Google 在 大 力 推广 TensorFlow 的 同时 ， 还 在 网 上 发 布 了 一 个 新 的 网 站 一 一 TensorFlow 游乐 
场 。 在 正式 讲解 TensorFlow 的 构建 源 代码 及 其 背后 的 理论 之 前 ， 我 们 先 介绍 一 下 这 个 游乐 场 。 

通过 浏览 器 的 自由 操作 , 可 以 让 使 用 者 按 自己 的 意愿 训练 自己 的 神经 网 络 , 并 将 结果 以 图 
形 的 形式 反馈 给 使 用 者 ， 以 便 更 加 便捷 地 理解 其 背后 复杂 的 理论 和 公式 。 

本 章 的 第 二 节 将 介绍 TensorFlow 的 一 些 基 本 内 容 ， 全 部 是 基本 概念 和 术语 ， 在 学 习 过 程 
中 可 能 有 些 枯 燥 ， 建 议 读者 一 边 玩 游乐 场 ， 一 边 看 这 些 内 容 ， 以 便 加 强 理解 。 


7. 1 TensorFlow 游乐 场 


NumPy 的 诞生 是 为 了 弥补 Python 本 身 数组 的 局 限 性 。 Python 本身 的 数组 由 于 在 设计 时 就 
存在 局 限 性 ， 例 如 保存 的 对 象 是 指针 ， 在 进行 计算 时 ， 结 构 和 形式 比较 浪费 内 存 和 占用 CPU 
的 运行 时 间 。 

其 次 相对 于 Python 本 身 的 array 模块 ， 虽 然 它 能 直接 保存 数值 ， 但 是 鉴于 array 本 身 的 设 
计 问 题 ，array 在 创建 和 计算 时 并 不 支持 多 维 函数 ， 因 此 它 并 不 适合 数值 计算 。 


7.1.1 1wantto play a game 


请 读者 打开 网 址 http://playground.TensorFlow.org， 这 是 TensorFlow 游乐 场 的 首页 ， 如 图 
7-1 所 示 。 
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图 7-1 TensorFlow 首页 
TensorFlow 首页 最 上 面 的 英文 的 意思 是 “在 你 的 浏览 器 中 就 可 以 玩 神经 网 络 , 不 用 担心 ， 
怎么 玩 也 玩 不 坏 哦 。”, 它 告诉 使 用 者 ， 在 这 个 游乐 场 中 ， 你 可 以 随意 在 这 里 玩 机 ， 而 不 会 担 
心 把 什么 东西 弄 坏 。 

















[9 7 建议 读者 在 页 面 上 随意 点 点 ， 多 试 试 各 种 情况 ,开心 地 玩 一 下 ,不 要 担心 ,不 会 弄 坏 什么 。 








首先 来 看 看 左边 的 DATA 框 体 ， 如 图 7-2 所 示 。 





图 7-2 不 同 的 数据 类 型 


从 图 标 上 可 以 看 到 ， 这 里 的 每 组 数据 都 是 不 同 数据 分 布 类 型 的 一 种 。 第 一 种 是 环形 数据 
分 布 ， 第 二 种 是 均匀 分 布 ， 第 三 种 是 集合 分 布 ， 最 后 一 种 是 交融 分 布 。 
而 且 从 图 上 可 以 看 到 ， 每 个 数据 集 都 具有 2 个 分 布 数据 ， 可 以 成 为 X 和 站 ， 用 颜色 区 
分 。 可 以 这 样 说 ， 神 经 网 络 的 作用 就 是 通过 模型 的 建立 和 数据 的 训练 能 够 把 未 判定 位 置 的 数 
据 判 定 清楚 。 

下 面 继续 看 页 面 的 左 侧 ， 在 数据 的 下 方 还 有 对 输入 数据 特征 进行 调节 的 地 方 ， 如 图 7-3 
所 示 。 
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Ratio of training to 
test data: 5096 


Noise: 0 


Batch size: 10 
—.9——— 


图 7-3 特征 微调 设置 


特征 微调 可 以 对 生成 数据 的 信息 做 进一步 的 设置 。 第 一 行 是 设置 多 少数 据 进行 训练 ， 留 
下 多 少数 据 作为 测试 使 用 。 第 二 行 设置 数据 集 内 噪声 的 多 少 ， 一 般 噪声 越 多 ， 训 练 越 困 难 。 
第 三 行 设置 模型 在 训练 时 每 次 放 入 的 数据 量 的 多 少 ， 需 要 注意 的 是 ， 数 据 量 多 并 不 会 增加 全 
部 的 训练 时 间 ， 而 是 会 对 模型 的 更 新 有 影响 ， 这 一 点 在 后 续 的 讲解 中 会 有 介绍 。 

对 于 生成 的 结果 来 说 ， 神 经 网 络 的 工作 结果 实际 上 就 是 做 出 一 个 区 域 ， 例 如 橙色 的 点 ( 彩 
图 请 下 载 相关 图 片 文件 查阅 ) 完全 落 在 橙色 的 区 域 (六 角形 外 ) 中 ， 而 蓝 色 的 点 完全 落 在 蓝 色 
的 区 域 〈 六 角形 内 ) 中 ， 将 不 同 的 数据 分 开 ， 如 图 7-4 所 示 。 








图 7-4 最 终 的 结果 分 类 


但 是 当 数 据 分 布 过 于 复杂 时 ， 例 如 图 7-5 这 样子 的 , 一 般 的 神经 网 络 就 难以 将 其 分 开 ， 这 
就 需要 增加 相关 的 神经 网 络 层 数 ， 如 图 7-6 所 示 。 
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图 7-5 复杂 的 分 类 数据 
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图 7-6 神经 网 络 的 操作 


图 7-6 代表 神经 网 络 模型 的 设计 ， 这 里 最 上 面 的 加 号 是 对 隐藏 层 的 个 数 进行 加 减 ， 而 第 
二 个 加 号 是 对 每 个 单独 的 隐藏 层 中 节点 的 个 数 进行 加 减 。 
还 有 一 个 部 分 如 图 7-7 所 示 。 
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7-7 单独 的 属性 设置 











图 7-7 中 是 对 神经 网 络 模型 参数 进行 设置 ， 在 这 里 可 以 设计 学 习 率 、 激 活 函 数 以 及 回归 


系数 等 。 
明 。 





这 些 属性 参数 是 神经 网 络 的 基本 参数 和 设置 内 容 ， 在 后 续 的 模型 学 习 中 会 进一步 说 


图 7-8 展示 了 增加 隐藏 层 个 数 ， 并 且 每 个 隐藏 层 的 神经 元 个 数 也 相应 地 增加 ， 可 以 看 
到 ， 对 数据 分 类 的 最 终结 果 是 可 以 比较 好 地 将 数据 按 颜 色 分 成 两 个 区 域 。 
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图 7- 


增加 隐藏 层 和 隐藏 层 节点 


如 果 通 俗 地 对 神经 网 络 进行 解释 ， 若 干 的 隐藏 层 都 会 相互 作用 ， 对 输入 的 数据 进行 计算 


和 组 合 ， 
自动 进行 的 。 


而 其 所 在 的 神经 网 络 下 一 层 又 会 对 这 一 层 的 输出 进行 再 次 计算 和 组 合 。 这 一 切 都 是 


神经 网 络 的 迷人 之 处 在 于 ， 对 于 输入 数据 的 特征 提取 和 计算 并 不 需要 人 工 干预 ， 而 是 只 
需要 给 予 足够 多 的 神经 网 络 和 神经 元 ， 神 经 网 络 会 自己 提取 和 计算 出 模型 和 结果 。 

而 且 从 输出 结果 上 来 看 ， 神 经 网 络 在 解决 蓝 橙 分 类 这 样 的 问题 时 ， 如 果 碰 到 现实 中 一 些 
更 为 复杂 的 问题 ， 可 以 通过 增加 相应 的 隐藏 层 和 每 个 层 的 神经 元 来 确定 ， 这 一 点 为 使 用 计算 


机 解决 现实 问题 打下 了 基础 。 


7.1.2 TensorFlow 游乐 场 背后 的 故事 


TensorFlow 游乐 场 在 潜移默化 中 使 用 了 人 工 神经 网 络 进行 数据 的 分 类 和 判定 。 对 此 , 维 


基 百 科 的 解释 为 : 当 神 经 元 接收 到 来 自 其 相连 的 神经 元 的 电信 号 时 ， 


它 会 变 得 兴奋 (激活 ) o 
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神经 元 之 间 的 每 个 连接 的 强度 不 同 ， 一 些 神经 元 之 间 的 连接 很 强 ， 足 以 激活 其 他 神经 元 ， 而 
另 一 些 连接 则 会 抑制 激活 。 你 大 脑 中 的 数 千 亿 神 经 元 及 其 连接 一 起 构成 了 人 类 智能 ， 如 图 
7-9 所 示 。 





7-9 生物 神经 元 网 络 


通过 对 生物 学 上 的 神经 元 进行 研究 导致 了 一 种 新 的 计算 机 模型 的 诞生 一 一 人 工 神经 网 
络 。 借 由 这 个 人 工 神 经 网 络 ， 使 用 者 可 以 使 用 模式 化 的 数学 模型 对 不 同 的 问题 进行 处 理 ， 并 
获得 最 终 的 解决 办 法 。 

前 面 的 TensorFlow 游乐 场 中 ， 由 若干 输入 数据 和 隐藏 层 不 同 层次 的 计算 ， 最 终 获 得 分 类 
的 结果 ， 如 图 7-10 所 示 将 公式 进行 简化 表现 。 
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图 7-10 神经 元 模型 的 图 形 表示 
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其 中 x1~xn 是 一 系列 的 输入 值 ， 而 wlw 是 权重 ， 可 以 理解 为 输入 值 对 神经 元 连接 的 强 
度 ， 而 单独 的 b 是 bias， 即 最 终 计算 值 被 激活 所 需要 的 阔 值 。 将 这 个 图 形 模型 以 数学 公式 的 形 
式 表示 出 来 : 


iwz, >b 


可 以 看 到 ， 所 谓 的 神经 网 络 就 是 使 用 权重 对 输入 值 进行 计算 ， 并 经 由 偏 置 值 进行 检查 ， 
之 后 将 计算 结果 进行 分 类 ， 最 后 进行 下 一 层级 输出 或 者 直接 停止 输出 。 如 果 输 出 的 数据 是 二 
维 分 类 ， 那 么 神经 元 最 终 可 以 形成 一 条 光滑 的 线段 将 数据 进行 分 类 ;如 果 是 多 元 输出 的 话 ， 
神经 元 会 使 用 平面 将 图 像 进行 分 类 ， 并 进行 投影 ， 即 一 个 超 平面 分 割 多 维 空间 。 


7.1.3 ”如 何 训练 神经 网 络 


通过 前 面 的 讲解 可 以 知道 , 神经 网 络 就 是 数学 激活 模型 的 一 种 实现 。 但 是 人 工 神经 网 络 与 
传统 的 特征 提取 训练 不 同 的 是 , 所 有 模型 的 参数 和 特征 都 是 由 训练 模型 自由 确定 和 完成 的 , 即 
模型 在 训练 过 程 中 是 一 个 黑 盒 过 程 ， 所 训练 的 权重 模式 不 是 由 人 工 完 成 的 。 

如 果 将 人 工 神经 网 络 看 作 一 个 在 学 习 阶段 的 小 学 生 的 话 ,那么 在 神经 网 络 的 工作 和 计算 过 
程 中 ， 他 会 犯 很 多 错误 。 因 此 在 训练 的 过 程 中 ， 还 会 涉及 经 典 的 反 向 传播 和 梯度 下 降 等 算法 ， 
但 是 这 些 也 仅仅 是 为 了 让 人 工 神经 网 络 模型 在 计算 时 能 够 更 好 、 更 快速 地 取得 最 优 的 成 果 。 

另外 ， 重 新 回 到 7.1.1 小 节 中 一 开始 讲 的 ， 对 于 简单 的 数据 分 类 ， 简 单 的 神经 网 络 可 以 很 
好 地 完成 分 类 。 而 当 数 据 变 得 更 加 复杂 , 两 组 数据 不 能 够 被 简单 地 分 开 时 ， 即 当 数 据 由 线性 可 
分 变 为 非 线性 可 分 时 ,就 需要 将 简单 的 神经 网 络 变 得 更 加 复杂 , 增加 更 多 的 隐藏 层 和 隐藏 层 节 
点 ， 如 图 7-11 所 示 。 





+ 一 + 一 
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weights, shown 
by the thickness of 
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-D 一 一 一 * The outputs are 
mixed with varying 
j 
图 7-11 神经 元 模型 的 隐藏 层 
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其 中 的 隐藏 层 拥有 若干 个 神经 元 节点 ， 可 以 说 每 个 神经 单元 都 在 进行 相关 的 特征 分 类 ， 
例如 第 一 个 神经 元 检查 数据 点 的 颜色 ， 第 二 个 检测 其 位 置 ， 第 三 个 检测 其 距离 其 他 数据 的 
相对 位 置 。 

这 些 检 测 的 结果 称 为 数据 的 基本 特征 , 神经 元 对 这 些 特征 检测 后 , 根据 输出 与 样本 的 真实 
分 类 加 强 或 减少 相应 特征 的 强度 ， 并 通过 权重 的 形式 表示 出 来 。 

在 TensorFlow 游乐 场 中 演示 的 各 个 例子 中 , 不 同 数目 的 隐藏 层 和 不 同 数目 的 神经 单元 对 应 不 
同 的 功能 ， 增 加 更 多 的 层 和 数目 可 以 使 得 神经 网 络 更 加 敏感 ， 从 而 能 够 建立 更 加 复杂 的 图 形 。 


更 多 神经 元 + 更 深 的 网 络 = 更 复杂 的 模型 


这 个 简单 的 公式 就 是 人 工 神 经 网 络 能 够 进行 模式 识别 、 数 据 分 类 、 图 像 辩 认 的 基本 原理 。 
这 也 是 让 神经 元 变 得 更 加 聪明 ， 表 现 更 加 良好 的 原因 。 


7 e 2 Hello TensorFlow 


Hello TensorFlow ! 


忘记 在 游乐 场 的 欢 悦 与 兴奋 ， 从 现在 开始 ， 我 们 将 进入 TensorFlow 的 正式 学 习 中 。 


7.2.1 TensorFlow 名 称 的 解释 


首先 从 名 称 上 来 看 ，TensorFlow 是 由 2 个 单词 构成 的 ， 即 Tensor 与 Flow。 其 中 Tensor 
的 意思 张 量 , 而 Flow 的 意思 是 “ 飞 ”, 指 的 是 数据 流 图 的 流动 ， 那么 合 在 一 起 的 意思 就 是 “让 
张 量 飞 ”。TensorFlow 可 以 理解 为 张 量 从 流 图 的 一 端 流 动 到 另 一 端的 计算 过 程 ，TensorFlow 
也 可 以 看 成 是 将 复杂 的 数据 结构 传输 至 人 工 智能 神经 网 中 进行 分 析 和 处 理 的 系统 。 

上 文 提 到 了 2 个 概念 ， 一 是 张 量 ， 二 是 数据 流 。 

IKE (Tensor) 理论 上 是 数学 的 一 个 分 支 学 科 ， 在 力学 中 有 重要 应 用 。 张 量 这 一 术语 起 源 
于 力学 , 它 最 初 是 用 来 表示 弹性 介质 中 各 点 应 力 状 态 的 , 后 来 张 量 理论 发 展 成 为 力学 和 物理 学 
的 一 个 有 力 的 数学 工具 。 张 量 之 所 以 重要 , 在 于 它 可 以 满足 一 切 物理 定律 必须 与 坐标 系 的 选择 
无 关 的 特性 。 张 量 概念 是 矢量 概念 的 推广 , 矢量 是 一 阶 张 量 。 张 量 是 一 个 可 用 来 表示 一 些 矢 量 、 
标量 和 其 他 张 量 之 间 的 线性 关系 的 多 线性 函数 。 

TensorFlow 用 张 量 这 种 数据 结构 来 表示 所 有 的 数据 。 用 一 阶 张 量 来 表示 向 量 ， 如 v= [1.2, 
3, 4.5]; 用 二 阶 张 量 表示 矩阵， 如 m= [[1.2. 3], [4, 5. 6], [7, 8. 9]]。 简 单 地 理解 ，TensorFlow 中 
的 张 量 ， 即 任意 维度 的 数据 ， 一 维 、 二 维 、 三 维 、 四 维 等 数据 统称 为 张 量 。 

在 介绍 Flow 之 前 需要 知道 ， 在 TensorFlow 中 ， 数 据 流 图 使 用 “节点 ” (nodes) 和 “ 边 ” 
Cedges) 的 有 向 图 来 描述 数学 计算 。“ 节 点 ”一 般 用 来 表示 施加 的 数学 操作 ， 但 也 可 以 表示 
数据 输入 (feed in) 的 起 点 和 输出 (push out) 的 终点 ， 或 者 是 读 取 / 写 入 持久 变量 (persistent 
variable) 的 终点 。“ 边 ”表示 “节点 ”之 间 的 输入 /输出 关系 。 
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当 张 量 从 图 中 流 过 时 ， 就 产生 了 “Flow”， 一 旦 输入 端的 所 有 张 量 准 备 好 ， 节 点 将 被 分 
配 到 各 种 计算 设备 上 异步 并 行 地 完成 执行 运算 ， 即 数据 开始 “ 飞 ” 起 来 。 
这 就 是 这 个 工具 取 名 为 “TensorFlow” 的 原因 。 





7.2.2 TensorFlow 基本 概念 


在 介绍 完 TensorFlow 名 称 的 来 历 后 ， 需 要 对 TensorFlow 的 基本 概念 进行 解释 。 
在 TensorFlow 中 ， 集 成 了 很 多 现成 的 、 已 经 实现 的 经 典 机 器 学 习 算 法 ， 这 些 算法 被 称 为 
算 子 (Operation) ， 如 图 7-12 所 示 。 














| Category Examples 
Element-wise mathematical operations | Add, Sub, Mul, Div, Exp, Log, Greater, Less, Equal, ... 
Array operations Concat, Slice, Split, Constant, Rank, Shape, Shuffle, ... 
Matrix operations MatMul, MatrixInverse, MatrixDeterminant, ... 
Stateful operations Variable, Assign, AssignAdd, ... 
Neural-net building blocks SoftMax, Sigmoid, ReLU, Convolution2D, MaxPool, ... 
Checkpointing operations Save, Restore 
Queue and synchronization operations | Enqueue, Dequeue, Mutex Acquire, MutexRelease, ... 
Control flow operations Merge, Switch, Enter, Leave, Nextlteration 





图 7-12 实现 的 一 些 机 器 学 习 算 子 


图 中 左边 的 是 算 子 的 归 类 , 右边 是 算 子 的 具体 实现 。 可 以 看 到 ,每 个 算 子 在 定义 与 实现 的 
时 候 就 被 定 下 了 规则 、 方法、 数据 类 型 以 及 相应 的 输出 结果 。 这 一 点 在 后 续 的 学 习 中 将 会 继续 
介绍 。 

这 里 比较 重要 的 概念 是 “节点 ” (nodes) 和 “ 边 ” (edges) 。 前 面 已 经 说 过 ， 节 点 实际 
上 指 的 是 某 个 输入 数据 在 算 子 中 的 具体 运行 和 实现 ，TensorFlow 通过 “ 库 ” 注 册 机 制 来 定义 
节点 ， 因 此 在 实际 使 用 时 ， 还 可 以 通过 库 与 库 之 间 的 相互 连接 来 进行 节点 的 扩展 。 

“ 边 ” 分 为 两 种 ， 一 种 是 正常 边 ， 即 数据 Tensor 流动 的 通道 ， 在 正常 边 上 可 以 自由 地 计 
算数 据 。 

另 一 种 边 是 一 种 特殊 边 ， 又 称 为 “控制 依赖 ” 边 ， 其 作用 首先 是 控制 节点 之 间 相 互 依赖 ， 
在 边 的 上 一 个 节点 完成 运算 前 , 特殊 的 节点 不 会 被 执行 , 即 数 据 的 处 理 要 遵循 一 定 的 顺序 。 其 
次 , 特殊 边 还 有 一 个 作用 ,是 为 了 多 线程 运行 数据 的 执行 , 让 没有 前 后 依赖 顺序 的 数据 计算 能 
够 分 开 执 行 ， 最 大 效率 地 利用 计算 设备 资源 。 

最 后 需要 介绍 的 一 个 概念 就 是 会 话 (Session) 。 会 话 是 TensorFlow 的 主要 交互 方式 , 一 
般 而 言 ，TensorFlow 处 理 数据 的 流程 是 : 建立 会 话 、 生 成 一 张 空 图 、 添 加 各 个 节点 和 边 ， 形 
成 一 个 有 连接 点 的 图 ， 然 后 启动 图 对 模型 进行 训练 ， 直 到 得 到 想 要 的 结果 。 

7-13 演示 了 一 个 会 话 的 基本 流程 ， 这 是 TensorFlow 最 常用 和 最 简单 的 会 话 模型 。 如 果 
将 图 7-13 的 模型 以 代码 的 形式 表现 出 来 ， 其 形式 如 程序 7-1 所 示 。 
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7-13 会 话 的 基本 流程 


【程序 7-1】 
import TensorFlow as tf 
import numpy as np 
inputX = np.random.rand (100) 
inputY = np.multiply(3,inputX) + 1 
X = tf.placeholder ("float32") 
weight - tf.Variable(0.25) 
bias = tf.Variable(0.25) 
y 7 tf.mul(weight,x) + bias 
y = tf.placeholder ("f10oat32") 
loss = tf.reduce sum(tf.pow((y - y ),2)) 
train step = tf.train.GradientDescentOptimizer(0.001).minimize (loss) 


sess tf.Session() 


init - tf.global variables initializer() 
sess.run (init) 
for _ in range (1000): 
sess.run(train step,feed dict-(x:inputX,y :inputY]) 
if $20 — 0: 
print ("W 的 值 为 : ",weight.eval(session-sess),"; bias 的 值 为 : 


" ,bias.eval(session-sess)) 


这 是 一 个 最 简单 的 TensorFlow 运行 模型 ， 用 于 回归 计算 x. y 的 生成 曲线 ， 读 者 不 必 现 在 
就 掌握 这 个 模型 ， 只 需要 知道 TensorFlow 在 运行 会 话 前 , 所 有 的 量 和 计算 函数 都 要 设置 完成 ， 
之 后 只 需要 直接 初始 化 数值 ， 使 之 在 对 话 中 运行 即 可 。 

这 里 需要 说 明 的 是 , 在 神经 网 络 计算 时 ， 一 个 最 重要 的 内 容 就 是 梯度 的 计算 。 梯 度 计算 不 
仅仅 用 在 神经 网 络 中 ， 而 且 还 用 在 机 器 学 习 之 中 。 

在 TensorFlow 中 ， 当 一 个 图 在 正 向 计算 的 同时 ， 复 制 了 自身 生成 一 个 反 向 图 ， 当 达到 正 
向 图 的 最 终 输 出 后 ， 反 向 图 开始 工作 ， 由 最 终 的 结果 向 输入 端 计 算 ， 如 图 7-14 所 示 。 
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ere 
ca» 
图 7-14 复制 计算 图 进行 反 向 求 导 


实际 上 ， 在 具体 计算 时 ，TensorFlow 自 带 的 优化 算法 可 以 根据 资源 节点 的 配置 自动 将 不 
同 的 任务 分 配 到 不 同 的 节点 上 ; 同时， 也 支持 用 户 手 动 进行 任务 的 分 配 ， 以 达到 资源 的 最 优 
化 配置 。 


7.2.3 TensorFlow 基本 架构 


前 面 介绍 了 TensorFlow 的 基本 概念 ， 对 其 中 一 些 计算 概 念 和 流程 做 了 介绍 。 本 小 节 将 从 
基本 架构 的 角度 对 TensorFlow 的 基本 流程 做 更 进一步 的 描述 。 
首先 需要 对 几 个 概念 进行 介绍 : 


€ Client: 用 户 使 用 ， 与 Master 和 一 些 worker process 交流 。 

@ Master: 用 来 与 客户 端 交互 ， 同 时 调度 任务 。 

€ worker process: 工作 节点 ， 每 个 worker process 可 以 访问 一 到 多 个 device. 

€ device: TensorFlow 的 计算 核心 ， 通 过 device 的 类 型 、job 名 称 、 在 worker process 
中 的 索引 来 命名 device。 可 以 通过 注册 机 制 来 添加 新 的 device 实现 ， 每 个 device 实 
现 需 要 负责 内 存 分 配 和 管理 调度 TensorFlow 系统 所 下 达 的 核 运算 需求 。 


可 能 有 的 读者 使 用 过 分 布 式 系统 ， 例 如 Hadoop 或 者 Spark， 对 这 种 分 层 式 管理 并 不 陌生 。 
Master 是 系统 总 的 调度 师 ， 对 所 有 的 任务 和 工作 进行 调度 ; Client 提出 需求 ， 对 任务 做 出 具体 
的 设 定 和 结果 要 求 ;， worker process 是 工作 节点 ， 是 单 任 务 的 监视 器 ;device 是 任务 的 具体 执 
行 和 分 配 节点 ， 所 有 的 有 具体 计算 结果 都 在 device 下 进行 处 理 ， 如 图 7-15 所 示 。 
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图 7-15 TensorFlow 运行 调度 的 分 配 
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TensorFlow 分 为 单机 式 实现 和 分 布 式 实现 。 在 单机 式 实现 中 ， 任 务 由 客户 端 提出 ， 之 后 
会 话 将 任务 提交 给 单机 的 Master, H Master 分 配给 单机 的 任务 工作 单元 进行 计算 ， 任 务工 作 
单元 可 以 由 CPU 处 理 ， 也 可 以 给 GPU 分 配 任务 ， 这 取决 于 程序 的 具体 设置 。 

在 分 布 式 实现 中 ， 客 户 端 产生 的 运行 命令 交 给 Master 去 处 理 ， 而 Master 将 任务 交 给 不 同 
的 worker precess 去 处 理 ， 具 体 的 worker precess 处 理 过 程 和 内 容 与 单机 版 的 一 样 。 

至 于 任务 的 哪 一 部 分 分 配给 哪个 计算 机 节点 处 理 ， 是 由 Master 根据 内 置 的 算 子 控制 ， 根 
据 不 同 节点 的 处 理 速度 和 运行 情况 进行 分 配 。 可 以 简单 地 理解 为 : 每 个 节点 使 用 一 个 计数 ， 当 
一 个 节点 开始 运算 时 ， 计 数 被 设置 成 100， 之 后 随 着 任务 的 进行 ， 计 数 逐 渐 减少 ， 当 任务 完成 
时 ， 计 数 变 为 0， 节 点 重新 待机 ， 等 待 下 一 个 任务 的 来 临 。 

更 为 复杂 的 情况 和 更 多 需要 考虑 的 因素 这 里 作者 就 不 再 进行 介绍 ， 请 读者 查阅 相关 材料 。 


了 .本 本 章 小 结 


本 章 首 先 介 绍 了 TensorFlow 游乐 场 ， 演 示 了 神经 网 络 运行 和 计算 的 能 力 与 机 制 。 随 着 读 
者 操作 的 增多 ， 可 以 看 到 神经 网 络 运行 的 机 制 其 实 非常 简单 ， 通 过 拥有 更 多 的 神经 元 和 深度 ， 
神经 网 络 能 提取 出 更 多 隐藏 的 特征 ， 建 立 更 复杂 的 模型 ， 以 及 建立 更 加 抽象 的 层级 结构 ， 解 决 
更 多 的 现实 问题 。 

制约 神经 网 络 发 展 的 影响 因素 除了 模型 的 建立 , 最 大 的 一 个 问题 就 是 计算 能 力 的 挑战 , 因 
为 随 着 隐藏 层 的 增加 和 神经 元 的 增多 , 数据 的 计算 工作 量 呈 现 指数 形式 增长 , 因此 要 求 承载 着 
神经 网 络 模型 的 计算 系统 要 有 强大 的 计算 能 力 。 

为 了 得 到 更 好 的 结果 , 在 人 工 神 经 网 络 进行 计算 的 时 候 ， 还 需要 选择 不 同 的 激活 函数 ， 设 
计 不 同 的 网 络 和 算法 ， 进 行 大 量 的 尝试 性 计算 ， 这 些 都 是 训练 神经 网 络 所 需要 执行 的 任务 。 

在 Google 正式 推出 TensorFlow 之 前 , 已 经 有 了 很 多 类 似 的 平台 ， 有 的 还 取得 了 很 高 的 关 
注 度 和 应 用 程度 。Theano、Caffe、Torch 以 及 最 新 推出 的 PyTorch， 都 是 应 用 范围 相当 广泛 的 
神经 网 络 框架 。 

TensorFlow 在 设计 的 时 候 ， 就 吸取 了 每 一 个 平台 的 精华 和 优秀 的 设计 思想 ， 而 最 为 显眼 
的 特性 是 易 用 性 、 跨 平台 性 以 及 高 效 的 可 扩展 性 ， 逐 渐 吸 引 了 更 多 大 数据 分 析 人 员 的 关注 。 
TensorFlow 拥有 这 些 特性 ， 并 可 以 在 低 成 本 的 计算 设备 上 运行 ， 让 更 多 的 学 习 者 能 够 方便 快 
速 地 掌握 它 的 使 用 方法 。 
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第 8 章 
«Hello TensorFlow， 从 0 到 1* 


Hello TensorFlow ! 

从 本 章 开 始 ， 将 正式 进入 TensorFlow 的 学 习 。 对 于 TensorFlow; 
困难 ,反而 应 该 简单 地 将 其 视 作 一 个 供 普 通 学 习 者 和 研究 者 使 用 的 、 易 学 易 懂 的 神经 网 络 平台 。 

TensorFlow 编写 使 用 的 是 Python 语言 , 在 前 面 的 章节 中 ,我 们 已 经 带领 读者 初步 学 习 了 Python 
语言 的 基本 概念 和 语法 形式 ， 这 也 是 为 了 从 本 章 开始 的 TensorFlow 程序 设计 打下 基础 。 













读者 大 可 不 必 想 的 特别 





简 





TensorFlow 的 安装 


首先 对 于 读者 来 说 ， 使 用 TensorFlow 必须 先 要 安装 TensorFlow。 在 本 书 的 开始 ， 我 们 安 
装 了 集成 多 个 Python 类 库 的 安装 程序 Anaconda， 它 将 帮助 读者 最 为 方便 地 安装 TensorFlow 。 

1. 第 一 步 : Python 版 本 的 确定 

首先 是 对 Python 版 本 的 要 求 ，TensorFlow 要 求 在 Windows 安装 时 ，Python 最 低 版 本 号 为 
3.6， 这 里 建议 读者 选择 Anaconda4.3.1 版 本 作为 安装 环境 。 

打开 Aanconda prompt. 输入 python 命令 , 可 以 查看 已 安装 的 Python 和 Anaconda 版 本 号 ， 
如 图 8-1 所 示 。 








Xxiaohua»python 
3 lAnaconda custom (64-bit)| (default, Oct 15 2017, 03:27:45) [MSC vu 
1900 64 bit (AMD64)] on win32 
Type "help", "copyright", "credits" or "license" for more information 





图 8-1 查看 已 经 安装 的 Python 和 Anaconda 版 本 号 


2. 第 二 步 : TensorFlow 安装 


在 Anaconda4.3.1 版 本 中 集成 了 最 常用 的 Python 第 三 方 类 库 ， 可 以 使 用 conda list 命令 查 
阅 。 对 于 已 经 满足 安装 条 件 的 计算 机 ，TensorFlow 提供 了 较为 简单 的 安装 命令 。 


pip install -upgrade 


https://storage.googleapis.com/tensorflow-1.9.0-cp35-cp35m-win amd64.whl 


使 用 此 命令 可 以 直接 下 载 和 安装 对 应 版 本 的 TensorFlow 程序 ， 也 可 以 通过 
https://pypi.tuna.tsinghua.edu.cn/simple/tensorflow/ 来 查找 自己 需要 的 版 本 (如 果 网 址 不 能 访问 ， 
可 以 直接 在 搜索 引擎 中 搜索 tensorflow-1.9.0-cp35-cp35m-win amd64.whl) 。 

通过 pip 安装 是 一 种 常用 的 Python 类 库 安 装 方式 ， 会 提示 错误 “Http error 404”。 出 现 这 
种 问题 一 般 情 况 下 是 网 络 连 接 故 障 所 致 ， 因 此 可 以 直接 将 https 及 后 面 的 地 址 复制 一 下 ， 并 粘 
贴 到 浏览 器 地 址 栏 中 手动 下 载 文件 〈 前 言 给 出 的 下 载 地 址 中 也 有 这 个 文件 ) 。 


https://storage.googleapis.com/tensorflow-1.9.0-cp35-cp35m-win amd64.whl 



































之 后 重新 调用 pip 命令 安装 下 载 的 TensorFlow 安装 文件 。 


pip install 本 地 保存 地 址 \tensorflow-1.9.0-cp35-cp35m-win amd64.whl 














ud 相对 于 本 地 安装 ， 作 者 更 建议 读者 使 用 Aanconda prompt 在 线 安装 的 方式 进行 ， 可 以 自动 | 
升级 TensorFlow 所 依赖 的 类 库 。 








3. 第 三 步 : 验证 TensoFlow 安装 
最 后 是 对 TensorFlow 程序 的 安装 验证 ， 在 Aanconda prompt 中 输入 以 下 代码 段 : 


import tensorflow as tf 
sess = tf.Session() 

a = tf.constant (1) 

b = tf.constant (2) 

print (sess.run(tf.add(a,b))) 


验证 TensoFlow 安装 如 图 8-2 所 示 。 





图 8-2 验证 TensorFlow 安装 


当 Aanconda prompt 显示 计算 结果 后 ， 恭 喜 您 ，TensorFlow 已 经 成 功 安装 完毕 。 
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8 e 2 TensorFlow 常量 、 变 量 和 数据 类 型 


TensorFlow 用 张 量 这 种 数据 结构 来 表示 所 有 的 数据 ， 对 此 读者 可 以 把 一 个 张 量 想象 成 一 
个 n 维 的 数组 或 列表 。 一 个 张 量 有 一 个 静态 类 型 和 动态 类 型 的 维 数 , 张 量 可 以 在 图 中 的 节点 之 
间 流 通 。 
因此 基于 特殊 的 数据 和 处 理 方式 ，TensorFlow 中 数据 类 型 也 会 因此 而 随 之 改变 ， 常 规 的 
数据 并 不 适合 TensorFlow 框架 的 使 用 。TensorFlow 本 身 定义 了 一 套 特殊 的 函数 ， 能 够 根据 需 
要 将 不 同 的 量 设置 成 所 需要 的 形式 。 

使 用 TensorFlow 的 第 一 步 就 是 在 程序 中 引入 TensorFlow， 打 开 PyCharm 新 建 工程 ， 如 图 
8-3 所 示 。 





Location: | Di\workspace\Hello Tensorflow 
1 Interpreter: | 3.5.2 at CAAMDVAnacondadipython exe Ba 











图 8-3 创建 TensorFlow 工程 文件 


右 击 工程 名 hello Tensorflow， 新 建 一 个 Python file， 在 弹出 的 对 话 框 中 输入 文件 名 
"hello Tensorflow”， 单 击 OK 按钮 来 确定 ， 如 图 8-4 所 示 。 





Nome: n 


we [aa E 


图 8-4 创建 文件 名 


之 后 出 现 PyCharm 程序 设计 界面 (如 图 8-5 所 示 ) ， 左 边 是 树 形 程序 框架 ， 右 边 是 程序 
编写 框 ， 对 程序 进行 编写 ， 而 最 下 方 是 程序 代码 执行 结果 。 这 里 将 TensorFlow 测试 代码 复制 
到 编写 框 中 ， 再 右 击 文件 名 “hello_Tensorflow.py”， 在 弹出 的 菜单 上 选择 “run”， 即 可 运行 
程序 。 
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To Tenorio] Nelo Temoran py Pyan Commuriy PAEn e — 
Eie Ed View Navigate Code Relator Run Tools VCS Window Help 
$ Hello Tenserfiow | (hello Tensorflow py 











Jl hello Tensorfiow.py x | 
1 import tensorflow as tf 
2 sess - tf.Session() 


* Mh memal Libra 3 — hello = tf.constant("hello, tensorflow") 

1 人 
Run f elo Tevorfow 2 
p| è COMO Unacondet ortho, space Le. Tensor£lon/asl le. Lenses flon. py 


B Pyron Camna IT 1000 








Ep 























图 8-5 PyCharm 使 用 界面 


下 面 对 代 码 进 行 详细 讲解 。 
首先 是 TensorFlow 包 的 引入 ， 其 代码 如 下 : 


import tensorflow as tf 


这 里 将 TensorFlow 引入 到 程序 中 ， 可 以 使 得 后 续 的 程序 编写 使 用 现成 的 TensorFlow 包 ， 
另外 作者 会 在 后 面 的 章节 中 将 TensorFlow 简称 成 tf， 这 点 请 读者 注意 。 
TensorFlow 中 的 常量 创建 方法 ， 其 代码 如 下 : 


hello = tf.constant('Hello, tensorflow!', dtype-tf.string) 
其 中 ，'Hello, tensorflow! 是 常量 初始 值 ; tfstring 是 常量 类 型 ， 在 平时 编写 时 可 以 省 略 。 


a = tf.constant (1) 


这 里 创建 了 一 个 以 常数 为 底 的 初始 值 ， 省 略 了 tfint 的 常量 类 型 。 
而 TensorFlow 中 变量 的 创建 方法 如 下 : 


a = tf.Variable(1.0, dtype=tf.float32) 
b = tf.Variable(1.0, dtype-tf.float64) 


【程序 8-1】 


import tensorflow as tf 


inputl = tf.constant (1) 
print (inputl) 
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input2 = tf.Variable(2,tf.int32) 
print (input2) 


input2 = inputl 
sess = tf.Session() 
print (sess.run(input2)) 


程序 8-1 展示 了 一 个 被 定义 成 nputl 的 常量 和 一 个 被 定义 成 变量 的 input2， 其 值 分 别 为 1 
和 2， 此 时 将 inputl 的 值 和 input2 的 值 打印 出 来 ， 之 后 调用 会 话 ， 使 图 完整 运行 后 ， 重 新 打印 
运行 后 的 值 ， 结 果 如 图 8-6 所 示 。 





Tensor("Const:0", shape-(), dtypecint32) 


Tensor("Variable/read:0", shape-(), dtype-int32) 
1 





8-6 程序 8-1 打印 结果 


可 以 看 到 ， 程 序 8-1 首先 对 inputl 进行 打印 ， 此 时 打印 结果 是 一 个 int32 类 型 的 张 量 而 不 
是 一 个 具体 的 数值 。 对 于 input2 来 说 ， 此 时 仍旧 是 read:0 状态 ， 表 示 虽 然 其 被 赋予 了 新 值 ， 
但 是 并 没有 发 生 真实 值 的 改变 。 而 只 有 当 input2 在 会 话 中 执行 过 ， 才 能 真正 发 生 真实 值 的 改 
A5. 

下 面 是 对 于 数据 结构 的 一 些 说 明 。 对 于 tf 中 的 浮 点 型 数据 ， 常 用 的 有 两 种 : float32 与 
float64， 这 两 种 浮 点 型 数据 在 作为 常量 使 用 的 时 候 没 什么 问题 ， 在 作为 变量 创建 和 修改 时 会 
相互 影响 ， 这 里 建议 大 家 在 程序 编写 之 前 定义 好 数据 的 类 型 。TensorFlow 中 几 种 常用 的 数据 
类 型 如 表 8-1 所 示 。 


表 8-1 TensorFlow 中 几 种 常用 的 数据 类 型 




















数据 类 型 说 明 

tfint 字符 串 
t£intl 16 位 整数 布尔 型 
tf.int32 32 位 整数 tf.complex64 64 位 复数 
tint64 64 位 整数 tf.complex128 128 位 复数 
t£uint8 8 位 无 符号 整数 tf.float16 16 位 浮 点 数 
tfuint16 16 位 无 符号 整数 tf.float32 32 位 浮 点 数 











除了 一 般 框架 中 常见 的 数据 常量 和 数据 变量 外 ，TensorFlow 还 存在 一 种 特殊 的 数据 类 型 
一 一 占 位 符 (placeholder) 。 因 为 TensorFlow 特殊 的 数据 计算 和 处 理 形式 ， 图 进行 计算 时 ， 可 
以 从 外 界 传 入 数值 。 而 TensorFlow 并 不 能 直接 对 传 入 的 数据 进行 处 理 ， 因 此 使 用 placeholder 
保留 一 个 数据 的 位 置 ， 之 后 可 以 在 TensorFlow 会 话 运 行 的 时 候 进行 赋值 。 


inputl = tf.placeholder (tf.float32) 
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t£placeholder 是 占 位 符 的 函数 ， 其 中 的 参数 是 传 入 的 数据 类 型 ， 这 里 可 以 看 到 ， 当 定义 
一 个 参数 是 tffloat32 时 ， 传 入 的 参数 必然 也 必须 是 float32 类 型 的 ， 如 果 传 入 其 他 类 型 的 数 
据 ， 系 统 会 报错 。 这 一 点 在 后 续 程序 编写 时 会 讲解 到 。 

【程序 8-2】 


import tensorflow as tf 


inputl = tf.placeholder (tf.int32) 
input2 = tf.placeholder (tf.int32) 


output = tf.add(inputl, input2) 


sess = tf.Session() 

print(sess.run(output, feed dict-(inputl:[1], input2:[21))) 

程序 8-2 演示 了 使 用 占 位 符 进行 输出 的 例子 ，inputl 和 input2 是 2 个 int 类 型 的 占 位 符 ， 
此 时 数据 并 不 能 直接 发 生 改变 ， 而 是 在 会 话 进行 的 过 程 中 不 停 地 填 入 数据 集 进行 数据 处 理 。 








dm 程序 8-2 的 一 些 具体 细节 在 83 节 解释 ， 希 望 进一步 了 解 的 读者 可 以 先 跳 过 去 看 看 。 | 











读者 可 以 把 这 个 过 程 想 象 成 马克 沁 重 机 枪 ( 见 图 8-7) ， 机 枪 平时 里 面 是 不 存储 任何 弹药 
的 ， 只 有 当 开火 时 ， 才 有 源源 不 断 的 子弹 被 送 入 机 枪 。 






图 8-7 马克 沉重 机 枪 


同 理 ， 占 位 符 在 平时 只 是 作为 一 个 空 的 张 量 在 TensorFlow 的 图 中 构成 一 个 边 ， 只 有 当 图 
完全 启动 后 ， 才 填 入 真实 的 数据 进行 计算 。 

在 程序 8-2 中 , t£add(inputl, input2) 是 TensorFlow 中 一 个 加 法 函数 ， 除 了 这 个 加 法 函数 之 
外 ，TensorFlow 还 提供 了 一 些 常用 的 计算 函数 供 程序 设计 使 用 ， 参 见 表 8-2。 
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表 8-2 TensorFlow 中 几 种 常用 的 函数 





























操 作 描 述 

tf.add(x, y. name-None) 求 和 

tf.sub(x. y, name=None) 减法 

tf.mul(x, y, name-None) 乘法 

tf.div(x, y. name-None) 除法 

tf.mod(x, y, name=None) 取 模 

tf.abs(x, name-None) 求 绝对 值 

tf.neg(x, name-None) 取 负 (y =-x) 

tf.sign(x, name=None) 返回 符号 y -sign(x) »-Lifx «0:0 ifx — 0; Lifx^ 0 
tf.inv(x, name-None) 取 反 

tf.square(x, name-None) 计算 平方 (y=x*x=x^2) 
tf.sqrt(x, name-None) FRS (y=\sqrt{x} =x^{1/2}) 
tf.exp(x, name-None) 计算 e 的 次 方 

tf.log(x, name=None) 计算 log 

tf.maximum(x, y, name=None) 返回 最 大 值 (x>y?x:y) 
tf.minimum(x, y. name=None) 返回 最 小 值 (x<y?x:y) 
tf.cos(x, name=None) 三 角 函 数 cosine 

tf.sin(x, name-None) 三 角 函 数 sine 

tf.tan(x, name-None) 三 角 函 数 tan 

tf.atan(x, name-None) 三 角 函 数 ctan 


下 面 补充 一 些 细节 问题 。 

首先 第 一 个 问题 。 在 程序 8-2 中 ，tfadd(inputl, input2) 是 TensorFlow 中 一 个 加 法 函数 。 前 
面 已 经 说 过 ，TensorFlow 是 以 图 的 形式 在 对 话 中 统一 运行 。 

tfadd(inputl，input2) 就 是 这 样 运行 的 一 个 函数 ， 从 源 代码 来 看 ， 这 个 函数 括号 内 的 参数 
inputl 与 input2 都 是 一 个 张 量 对 象 。 在 TensorFlow 设计 之 初 ， 就 鼓励 用 户 去 建立 复杂 的 表达 
式 〈 如 整个 神经 网 络 及 其 梯度 ) 来 形成 计算 图 。 之 后 将 整个 计算 图 的 运行 过 程 交 给 一 个 
TensorFlow 的 对 话 ， 此 对 话 可 以 运行 整个 计算 过 程 ， 这 种 运行 方式 相 比 较 传统 一 条 一 条 语句 
的 执行 效率 高 得 多 。 

第 二 个 问题 ， 在 程序 8-2 对 占 位 符 传递 数据 时 ， 使 用 的 是 Feeding dict 函数 。Feeding 是 
TensorFlow 的 一 种 机 制 ， 它 允许 你 在 运行 时 使 用 不 同 的 值 蔡 换 一 个 或 多 个 tensor 的 值 。 
feed dict 将 tensor 对 象 映 射 为 NumPy 的 数组 (和 一 些 其 他 类 型 )， 同 时 在 执行 step 时 ， 
这 些 数组 就 是 tensor 的 值 。 


113 





OpenCV+TensorFlow 深度 学 习 与 计算 机 视觉 实战 


& * 3 TensorFlow 和 矩阵 计算 


TensorFlow 中 甜 阵 的 生成 与 计算 是 所 有 结构 计算 中 最 为 重要 和 复杂 的 ， 因 此 ， 本 节 将 重 
点 介绍 TensorFlow 中 和 矩阵 的 生成 与 计算 。 

首先 创建 一 个 张 量 矩 阵 ，TensorFlow 中 使 用 常量 创建 函数 ， 即 使 用 tfconstant 来 创建 一 个 
JERE o 


tf.constant([1,2,3],shape-[2,3]) 


这 行 代码 创建 了 一 个 2 行 3 列 的 矩阵 ， 可 能 有 读者 奇怪 ， 这 里 输入 的 数值 只 有 3 个 ， 但 是 
却 要 求生 成 一 个 2 行 3 列 的 矩阵 。 先 来 看 看 生成 的 结果 : 

[[1 2 3] 

[3 3 3]] 

这 里 自动 生成 了 一 个 符合 要 求 的 矩阵 ， 输 入 的 数据 1. 2. 3 被 放 在 第 一 行 ， 而 第 二 行 中 
自动 由 第 一 行 ， 也 就 是 输入 的 数值 进行 补 全 。 这 是 TensorFlow 和 珑 阵 生成 的 一 种 优化 结果 。 

如 果 想 随机 生成 矩阵 张 量 ， 可 以 需要 使 用 以 下 函数 : 


tf.random normal (shape,mean=0.0,stddev=1.0,dtype=tf.float32, seed=None, name= 


None) 
tf.truncated normal (shape, mean-0.0, stddev-1.0, dtype-tf.float32, seed-None, 


name-None) 
tf.random uniform(shape,minval-0,maxval-None,dtype-tf.float32,seed-None,nam 


e-None) 
以 上 这 三 个 函数 都 是 用 于 生成 随机 数 tensor 的 ， 尺 寸 是 shape。 
© random normal: 正 态 分 布 随机 数 ， 均 值 mean， 标 准 差 stddev。 
€ truncated normal: 截断 正 态 分 布 随机 数 ， 均 值 mean， 标 准 差 stddev。 不 过 只 保留 
[mean-2*stddev.mean+2*stddev] 范 围 内 的 随机 数 。 
€ random uniform: 均匀 分 布 随 机 数 ， 范 围 为 [minval,maxval]。 
对 于 已 经 生成 的 矩阵 ， 可 以 通过 tfshape(Tensor) 获 取 到 算 阵 张 量 的 形状 : 
tf.shape (Tensor) 


对 于 需要 对 和 矩阵 重新 排列 的 用 法 来 说 ，tfreshape(tensor, shape, name=None) 是 一 个 常用 的 
方法 。 与 NumPy 中 reshape 类 似 ， 它 将 矩阵 张 量 按照 新 的 shape 重新 排列 。 


€ ”如果 shape=[-1]， 表 示 要 将 tensor 展开 成 一 个 list. 

如 果 shape=[a,b,c,...]， 其 中 每 个 a,b,c,…. 均 大 于 0， 这 样 就 是 常规 用 法 。 

€ 如果 shape=[a,-1,c,.….]， 此 时 b=-1，a,c,… 依 然 大 于 0， 这 表示 tf RAE tensor 的 原 尺 
寸 自动 计算 b 的 值 。 
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TensorFlow 中 几 种 常用 的 矩阵 函数 参见 表 8-3. 


表 8-3 TensorFlow 中 几 种 常用 的 矩阵 函数 
操 作 d xk 
tf.diag(diagonal, name-None) 返回 一 个 给 定 对 角 值 的 对 角 tensor 
# ‘diagonal’ is [1. 2, 3, 4] 
tf.diag(diagonal) 一 > 
[[1. 0. 0, 0] 
[0. 2, 0, 0] 
[0. 0, 3. 0] 
[0. 0. 0, 4]] 











tf.diag part(input, name-None) 功能 与 上 面相 反 

tf.trace(x, name=None) 求 一 个 2 H tensor 足迹 ， 即 对 角 值 diagonal 之 和 
调换 tensor 的 维度 顺序 

按照 列表 perm 的 维度 排列 调换 tensor 顺序 ， 

如 定义 ， 则 perm 为 (n-1...0) 

# x is [1 23][45 6]] 

tftranspose(x) => [[1 4], [2 5][3 6]] 

# Equivalently 

tf.transpose(x, perm=[1. 0]) => [[1 4].[2 5]. [3 6]] 
矩阵 相 乘 





tf.transpose(a, perm-None, name='transpose ) 


tf.matmul(a, b, transpose a-False, 
transpose b—False,a is sparse-False, 
b is sparse—False, name-None) 

返回 方 阵 的 行列 式 


ROERE, adjoint 为 True 时， 计算 输入 共 斩 矩 
阵 的 逆 矩 阵 

tf.cholesky(input, name-None) 对 输入 方 阵 cholesky 分 解 ， 

即 把 一 个 对 称 正定 的 矩阵 表示 成 一 个 下 三 角 和 矩阵 L 和 
其 转 置 的 乘积 的 分 解 A=LLAT 


tf.matrix determinant(input, name=None) 


t£ matrix inverse(input, adjoint-None, name-None) 














t£ matrix. solve(matrix, rhs, adjoint-None, 3K 解 tmatrix solve(matrix, rhs, adjoint=None, 
name-None) name-None) 
matrix 为 方 阵 ，shape 为 [M.M], rhs 的 shape 为 [M.K]， 
output 为 [MK] 








Hello TensorFlow 


Hello TensorFlow! 
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前 面 章节 的 内 容 对 TensorFlow 的 基本 概念 做 了 一 个 大 概 介绍 。 可 能 有 的 读者 看 到 这 里 会 
很 证 异 ， 大 名 易 易 的 TensorFlow 怎么 会 这 么 简单 。 从 代码 量 上 来 看 ，TensorFlow 主要 是 利用 
已 有 的 函数 去 实现 一 些 具 体 的 计算 。 

然而 事实 是 这 样 的 吗 ? 

本 章 的 题目 是 Hello TensorFlow， 也 是 经 典 的 编程 语言 入 门 程序 提示 语 ， 不 过 TensorFlow 
与 Hadoop 类 似 ， 有 自己 的 入 门 程 序 : Hello Regular Network。 

先 来 看 看 一 个 回归 分 析 的 具体 应 用 。 图 8-8 所 示 的 是 一 个 需要 设计 的 神经 网 络 ， 这 里 准备 
建立 一 个 有 一 个 隐藏 层 的 神经 网 络 去 实现 回归 分 析 ， 这 个 神经 网 络 有 输入 层 、 隐 藏 层 与 输出 
层 。 程 序 8-3 现实 了 这 个 神经 网 络 的 具体 实现 。 





O 
输入 层 隐 含 层 输出 层 
图 8-8 有 一 个 隐藏 层 的 反馈 神经 网 络 


【程序 8-3] 
import tensorflow as tf 
import numpy as np 


这 里 是 一 个 非常 好 的 大 数据 验证 结果 ， 随 着 数据 量 的 上 升 ， 集 合 的 结果 也 越 来 越 接 近 真 实 值 ， 
这 也 是 反馈 神经 网 络 的 一 个 比较 好 的 应 用 

这 里 不 是 很 需要 各 种 激励 函数 

而 对 于 dropout， 这 里 可 以 看 到 加 上 dropout, loss 的 值 更 快 。 

随 着 数据 量 的 上 升 ， 结 果 就 更 加 接近 于 真实 值 。 


inputX = np.random.rand(3000,1) 
noise = np.random.normal(0, 0.05, inputX.shape) 
outputY = inputX * 4 + 1 + noise 


# 这 里 是 第 一 层 

weightl = tf.Variable (np.random.rand (inputX.shape[1],4)) 
biasl = tf.Variable (np.random.rand (inputX.shape[1],4)) 
xl = tf.placeholder(tf.float64, [None, 1]) 

yl = tf.matmul(x1, weightl) + biasl 


y = tf.placeholder(tf.float64, [None, 11) 
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loss = tf.reduce mean(tf.reduce sum(tf.square((yl - y)), 
reduction indices-[11)) 
train = tf.train.GradientDescentOptimizer(0.25).minimize(loss) 4 选择 梯度 下 降 


法 


init 


tf.global variables initializer() 
sess = tf.Session() 


sess.run(init) 


for i in range(1000): 


sess.run(train, feed dict-(x1l: inputX, y: outputY]) 


print (weightl.eval(sess)) 


x data = np.matrix([[1.], [2-1], [3-]]) 
print(sess.run(yl ,feed dict-(x1l: x data])) 


上 面 的 代码 使 用 了 最 简单 的 一 元 回归 分 析 函 数 ， 现 在 对 这 个 程序 做 一 个 分 析 。 
首先 最 上 端 导入 了 在 程序 设计 时 所 需要 的 包 : 


import tensorflow as tf 
import numpy as np 


这 是 告诉 程序 需要 使 用 TensorFlow 与 NumPy， 将 其 应 用 包 导 入 进来 。 


inputX = np.random.rand(3000,1) 
noise - np.random.normal(0, 0.05, inputX.shape) 


outputY = inputX * 4 + 1 + noise 


使 用 NumPy 中 的 随机 生成 数据 功能 生成 一 个 y = 4 * x + 1 的 线性 曲线 ， 数 据 inputX、 
noise 为 随机 生成 的 输入 数 与 满足 偏差 为 0.05 的 正 态 分 布 的 噪声 数 。 
下 面 创建 了 有 一 个 隐藏 层 的 反馈 神经 网 络 来 计算 这 个 线性 曲线 : 
weightl = tf.Variable (np.random.rand (inputX.shape[1],4)) 
biasl = tf.Variable (np.random.rand (inputX.shape[1],4)) 


xl = tf.placeholder(tf.float64, [None, 1]) 
yl = tf.matmul(xl, weightl) + biasl 


这 里 weightl 与 biasl 分 别 是 神经 网 络 隐藏 层 的 变量 ， 因 为 这 个 变量 在 后 续 的 图 计算 过 程 
中 需要 重新 根据 误差 算法 不 停 地 重新 赋值 ， 所 以 被 设置 成 世 变 量 。 

程序 段 中 xl 5 yl 有些 不 一 样 ， 这 里 x1 是 占 位 符 ， 占 位 符 的 作用 是 在 攻 图 计算 时 可 以 不 
停 地 输入 数据 ， 而 yl 是 神经 网 络 设立 的 模型 目标 ， 其 形式 为 : 
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yxXwtb 





即 这 个 模型 是 一 个 一 元 线性 回归 模型 。 


y = tf.placeholder(tf.float64, [None, 1]) 
loss = tf.reduce mean(tf.reduce sum(tf.square((y2 - y)), 


reduction indices-[1])) 
train = tf.train.GradientDescentOptimizer(0.25).minimize(loss) # 选 择 梯度 下 降 法 


在 上 面 程序 中 ， 训 练 模型 的 真实 值 y 同样 被 设置 成 一 个 占 位 符 。loss 定 义 的 是 损失 函数 ， 
这 里 采用 的 是 最 小 二 乘法 的 损失 函数 ， 即 计算 模型 输出 值 与 真实 值 之 间 的 误差 的 最 小 二 科 
法 。 
m 最 小 二 乘法 在 后 续 的 章节 中 会 进行 介绍 ， 这 里 读者 只 需 了 解 即 可 。 | 


train 是 采用 梯度 下 降 算 法 计算 的 训练 方法 ， 图 8-9 使 用 流程 图 展示 了 这 一 步骤 。 




















图 8-9 神经 网 络 的 反 向 传播 算法 


init = tf.global variables initializer() 
sess — tf.Session() 


sess.run(init) 
当 全 部 数据 和 模型 被 设置 完毕 以 后 ，tfglobal_variables_initializer0) 启 动 数 值 的 初始 化 工 
作 ， 之 后 对 话 被 启动 ， 框 架 准 备 开始 执行 任务 。 


for i in range(1000) : 
sess.run(train, feed dict-(x1l: inputX, y: outputY]) 


在 设 定 的 循环 次 数 下 会 话 被 启动 ， 而 feed 会 把 设 定 的 值 依次 传送 到 训练 模型 中 。 


print (weightl.eval(sess)) 
有 m) 


print (biasl.eval(sess)) 
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训练 完成 后 ， 可 以 打印 结果 ， 在 整个 公式 中 ， 最 需要 知道 的 就 是 weight 和 bias 的 值 ， 可 
以 直接 打印 出 来 。 

x data = np.matrix([[1.], [2.]，[3-]]) 

print(sess.run(yl ,feed dict-(x1: x data])) 

而 模型 训练 结束 后 被 存储 在 上 文 设 定 的 y1_ 模 型 中 。 需 要 注意 的 是 ， 当 训练 结束 后 ， 模 
型 就 已 经 被 训练 完毕 并 存储 在 系统 中 ， 在 需要 的 时 候 按 要 求 调用 即 可 。 








| 可 以 简单 地 理解 ，TensorFlow 实际 上 就 是 一 个 函数 解释 器 ， daoa 
{ 络 的 神经 程序 以 程序 设 定 步骤 的 形式 解释 出 来 。 








如 果 需 要 增加 更 多 的 隐藏 层 ， 例 如 在 前 面 TensorFlow 游乐 场 中 看 到 的 一 样 ， 那 只 需要 编 
写 更 多 的 步骤 ， 即 : 


# 这 里 是 第 二 层 

weight2 = tf.Variable (np.random.rand(4,1)) 

bias2 = tf.Variable (np.random.rand(inputX.shape[1],1)) 
y2_ = tf.matmul(yl , weight2) + bias2 


第 二 层 的 设置 与 第 一 层 相 似 ， 但 是 需要 注意 ， 第 二 层 将 第 一 层 计算 后 的 输出 值 作为 输入 
值 进行 输入 ， 并 重新 计算 。 完 整 代码 如 程序 8-4 所 示 。 


【程序 8-4】 
import tensorflow as tf 


import numpy as np 


这 里 是 一 个 非常 好 的 大 数据 验证 结果 ， 随 着 数据 量 的 上 升 ， 集 合 的 结果 也 越 来 越 接近 真实 值 ， 
这 也 是 反馈 神经 网 络 的 一 个 比较 好 的 应 用 

这 里 不 是 很 需要 各 种 激励 函数 

而 对 于 dropout， 这 里 可 以 看 到 加 上 dropout, loss 的 值 更 快 。 

随 着 数据 量 的 上 升 ， 结 果 就 更 加 接近 于 真实 值 。 


inputX = np.random.rand(3000,1) 
noise = np.random.normal(0, 0.05, inputX.shape) 
outputY = inputX * 4 + 1 + noise 


# 这 里 是 第 一 层 

weightl = tf.Variable (np.random.rand (inputX.shape[1],4)) 
biasl = tf.Variable (np.random.rand (inputX.shape[1],4)) 
xl = tf.placeholder(tf.float64, [None, 1]) 

yl = tf.matmul(x1, weightl) + biasl 
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# 这 里 是 第 二 层 

weight2 = tf.Variable (np.random.rand(4,1)) 

bias2 = tf.Variable (np.random.rand (inputX.shape[1],1)) 
y2_ = tf.matmul(yl , weight2) + bias2 


y 7 tf.placeholder(tf.float64, [None, 1]) 
loss = tf.reduce mean(tf.reduce sum(tf.square((y2 - y)), 


reduction indices-[1])) 
train = tf.train.GradientDescentOptimizer (0.25) .minimize(1oss)# 选 择 梯度 下 降 法 


init tf.global variables initializer() 


sess = tf.Session() 


sess.run(init) 


for i in range(1000): 
sess.run (train, feed dict-(xl: inputX, y: outputY]) 


print (weightl.eval(sess)) 
Dr nt C LC ECCL m) 
print (weight2.eval(sess)) 


print (bias2.eval(sess)) 


print ("------------------ d RIE------------------ iy 


x data = np.matrix([[1.], [2.1]; [3-]1]) 
print(sess.run(y2 ,feed dict-(x1: x data])) 


与 程序 8-3 相 类 似 ， 不 过 在 最 终 的 模型 验证 和 数据 输入 的 时 候 ， 产 生 了 一 个 计算 流程 
图 ， 由 于 一 个 模型 被 人 为 设置 成 2 个 ， 而 最 终 的 结果 也 由 yl _ 改 成 y2_。 
有 具体 结果 请 读者 自行 完成 。 


5.5 本章 小 结 


本 章 初步 介绍 了 TensorFlow 的 基本 概念 以 及 矩阵 计算 方式 ， 也 介绍 了 在 TensorFlow 程序 
编写 时 需要 设置 的 常量 、 变 量 以 及 占 位 符 ; 最 后 着 重 介绍 了 在 TensorFlow 中 最 常用 的 矩阵 计 
算 ， 这 是 TensorFlow 图 计算 最 常用 的 数据 处 理 类 型 和 计算 格式 。 

可 能 有 读者 认为 ，TensorFlow 编写 程序 相对 简单 。 但 是 ， 这 个 简单 是 基于 使 用 者 对 所 设 
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计 的 算法 和 步骤 深刻 理解 的 基础 上 的 。 前 文 也 说 了 ，TensorFlow 实际 上 就 是 一 个 函数 解释 
器 ， 可 以 把 设计 的 算法 和 函数 用 最 简单 的 方法 实现 ， 从 而 能 达到 神经 网 络 做 计算 的 要 求 。 如 
果 对 它 背 后 的 公式 和 内 容 不 理解 的 话 ， 那 么 很 难 想象 能 够 编写 出 好 的 程序 。 

从 下 一 章 开始 ， 作 者 将 从 最 基本 的 BP 算法 开始 ， 逐 步 讲解 TensorFlow 公式 和 算法 所 涉 
及 的 内 容 ， 和 希望 能 够 加 深 读者 对 TensorFlow 背后 更 深 内 容 的 理解 。 
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第 9 章 
<TensorFlow 重 要 算法 基山 > 


本 章 内 容 是 全 书 的 重点 之 一 ， 也 是 神经 网 络 最 重要 的 内 容 。 

在 上 一 章 中， 我们 介绍 了 TensorFlow 的 基本 语法 结构 和 代码 编写 方法 ， 并 向 读者 演示 了 
TensorFlow 的 入 门 程序 :Hello TensorFlow ! 

从 代码 量 上 来 看 ， 通 过 TensorFlow 构建 一 个 可 用 的 神经 网 络 程序 对 回归 进行 拟 合 分 析 并 
不 是 一 件 很 难 的 事 。 不 过 , 我 们 在 上 一 章 的 最 后 也 说 了 ， 虽 然 构建 一 个 普通 的 神经 网 络 是 比较 
简单 的 ， 但 是 其 背后 的 原理 却 不 容 小 冕 。 

从 本 章 开始 , 作者 将 从 BP 神经 网 络 开始 说 起 , 介绍 它 的 概念 、 原理 以 及 背后 的 数学 原理 。 
本 章 的 后 半 部 分 阅读 起 来 有 一 定 的 困难 ， 读 者 需要 尽力 弄 懂 这 些 内 容 。 


BP 神经 网 络 简介 


在 介绍 BP 神经 网 络 之 前 ， 人 工 神经 网 络 CArtificial Neural Network, ANNO 是 必须 介绍 
的 内 容 。 人 工 神经 网 络 的 发 展 经 历 了 大 约 半 个 世纪 ， 从 20 世纪 40 年 代 初 到 80 年 代 ， 神 经 网 
络 的 研究 经 历 了 几 起 几 落 的 发 展 过 程 。 

1943 年 ， 心 理学 家 W * McCulloch 和 数理 逻辑 学 家 W。Pitts 在 分 析 、 总 结 神经 元 基本 特 

性 的 基础 上 提出 神经 元 的 数学 模型 (McCulloch-Pitts 模型 ，MP 模型 ) ， 标 志 着 神经 网 络 研 
究 的 开始 。 由 于 受到 当时 研究 条 件 的 限制 ， 很 多 工作 不 能 模拟 ， 在 一 定 程度 上 影响 了 MP Bi 
型 的 发 展 。 尽 管 如 此 ，MP 模型 对 后 来 的 各 种 神经 元 模型 及 网 络 模型 都 有 很 大 的 启发 作用 ， 
在 此 后 的 1949 4E, D.O.Hebb 从 心理 学 的 角度 提出 了 至 今 仍 对 神经 网 络 理论 有 着 重要 影响 的 
Hebb 法 则 。 
1945 年 ， 汉 “。 诺 依 曼 领 导 的 设计 小 组 试制 成 功 存储 程序 式 电 子 计算 机 ， 标 志 着 电子 计算 
机 时 代 的 开始 。1948 年 ， 他 在 研究 工作 中 比较 了 人 脑 结构 与 存储 程序 式 计算 机 的 根本 区 别 ， 
提出 了 以 简单 神经 元 构成 的 再 生 自 动机 网 络 结构 。 但 是 , 由 于 指令 存储 式 计算 机 技术 的 发 展 非 
常 迅速 ,迫使 他 放弃 了 神经 网 络 研究 的 新 途径 , 继续 投身 于 指令 存储 式 计 算 机 技术 的 研究 ， 并 
在 此 领域 做 出 了 巨大 贡献 。 EAR, 冯 。 诺 依 曼 的 名 字 是 与 普通 计算 机 联系 在 一 起 的 , 但 他 也 是 
人 工 神经 网 络 研究 的 先驱 之 一 。 
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1958 年 ，F。Rosenblatt 设计 制作 了 “感知 机 ”一 种 多 层 的 神经 网 络 )。 这 项 工作 首次 
把 人 工 神经 网 络 的 研究 从 理论 探讨 付 诸 工程 实践 。 感知 机 由 简单 的 闪 值 性 神经 元 组 成 , 初步 具 
备 了 诸如 学 习 、 并 行 处 理 、 分 布 存储 等 神经 网 络 的 一 些 基本 特征 ， 从 而 确立 了 从 系统 角度 进行 
人 工 神经 网 络 研究 的 基础 。 

1980 年 ，B.Widrow 和 M.Ho 企 提出 了 自 适 应 线性 元 件 网 络 (ADAptive LINear NEuron, 
ADALINE) ， 这 是 一 种 连续 取 值 的 线性 加 权 求 和 浆 值 网 络 。 后 来 ， 在 此 基础 上 发 展 了 非 线性 
多 层 自 适应 网 络 。Widrow-Hoff 的 技术 被 称 为 最 小 均 方 误差 (least mean square, LMS) 学 习 规 
则 。 从 此 神经 网 络 的 发 展 进入 了 第 一 个 高 潮 期 。 

的 确 , 在 一 个 有 限 范围 内 , 感知 机 有 较 好 的 功能 ， 并 且 收 敛 定 理 得 到 证 明 。 单 层 感知 机 能 
够 通过 学 习 把 线性 可 分 的 模式 分 开 ， 但 对 XOR( 异 或 ) 这 样 简单 的 非 线 性 问题 却 无 法 求解 ， 
这 一 点 让 人 们 大 失 所 望 ， 甚 至 开始 怀疑 神经 网 络 的 价值 和 潜力 。1999 年 ， 麻 省 理工 学 院 著名 
的 人 工 智能 专家 M.Minsky 和 S.Papert 出 版 了 颇 有 影响 力 的 Perceptron 一 书 ， 从 数学 上 剖析 了 
简单 神经 网 络 的 功能 和 局 限 性 ， 并 且 指 出 多 层 感 知 机 还 不 能 找到 有 效 的 计算 方法 ， 由 于 
M.Minsky 在 学 术 界 的 地 位 和 影响 ， 其 悲观 的 结论 被 大 多 数 人 接受 而 不 做 进一步 分 析 ; 加 上 当 
时 以 逻辑 推理 为 研究 基础 的 人 工 智能 和 数字 计算 机 的 辉煌 成 就 , 大 大 减低 了 人 们 对 神经 网 络 研 
究 的 热情 。20 世纪 60 年 代 末 期 ， 人 工 神 经 网 络 的 研究 进入 了 低潮 。 尽 管 如 此 ， 神 经 网 络 的 研 
究 并 未 完全 停顿 下 来 , 仍 有 不 少 学 者 在 极其 艰难 的 条 件 下 致力 于 这 一 研究 。1972 年 , T.Kohonen 
和 J.Anderson. 不 约 而 同 地 提出 具有 联想 记忆 功能 的 新 神经 网 络 ; 1976 年 ，S.Grossberg 与 
G.A.Carpenter 提出 了 自 适 应 共振 理论 (adaptive resonance theory, ART) ， 并 在 以 后 的 若干 年 
内 发 展 了 ART1、ART2、ART3 这 3 个 神经 网 络 模型 ， 从 而 为 神经 网 络 研究 的 发 展 黄 定 了 理论 
基础 。 

进入 20 世纪 80 年 代 ， 特 别 是 80 年 代 末 期 ， 对 神经 网 络 的 研究 从 复兴 很 快 转 入 了 新 的 热 
潮 。 这 主要 是 因为 : 一 方面 经 过 十 几 年 迅速 发 展 的 、 以 逻辑 符号 处 理 为 主 的 人 工 智能 理论 和 汉 “。 诺 
依 曼 计算 机 在 处 理 诸如 视觉 、 听 觉 、 形 象 思维 、 联 想 记忆 等 智能 信息 处 理 问 题 上 受到 了 挫折 ; 
另 一 方面 ， 并 行 分 布 处 理 的 神经 网 络 本 身 的 研究 成 果 使 人 们 看 到 了 新 的 希望 。1982 年 ， 美 国 
加 州 工学 院 的 物理 学 家 JHoppfield 提出 了 HNN (hoppfield neural network) 模型 ， 并 首次 引入 
了 网 络 能 量 函 数 概念 , 使 网 络 稳定 性 研究 有 了 明确 的 判 据 , 其 电子 电路 实现 为 神经 计算 机 的 研 
FERGE T Amh, 同时 开拓 了 神经 网 络 用 于 联想 记忆 和 优化 计算 的 新 途径 。1983 1E, K.Fukushima 
等 提出 了 神经 认 知 机 网 络 理论 ; 1985 4, D.H.Ackley, G.E.Hinton 和 T.J.Sejnowski 将 模拟 退 
火 概 念 移植 到 Boltzmann 机 模型 的 学 习 之 中 ， 以 保证 网 络 能 收敛 到 全 局 最 小 值 。1989 年 ， 
D.Rumelhart fil J.McCelland 等 提出 了 PDP (parallel distributed processing) 理论 ， 致 力 于 认 知 
微观 结构 的 探索 ， 同 时 发 展 了 多 层 网 络 的 BP 算法 ， 使 BP 网 络 成 为 当前 应 用 最 广 的 网 络 。 

“ 反 向 传播 (backpropagation) ”一 词 的 使 用 出 现在 1985 年 后 ， 它 的 广泛 使 用 是 在 1989 
年 D.Rumelhart fil J.McCelland 所 著 的 Parallel Distributed Processing 这 本 书 出 版 以 后 .1987 年 ， 
T.Kohonen 提出 了 自 组 织 映射 (self organizing map, SOM) 。1987 年 ， 美 国电 气 和 电子 工程 
师 学 会 IEEE (institute for electrical and electronic engineers) 在 圣地 亚 哥 (San Diego) 召开 了 
盛大 规模 的 神经 网 络 国际 学 术 会 议 ， 国 际 神经 网 络 学 会 (international neural networks society ) 
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随 之 诞生 。 

1988 年 ， 学 会 的 正式 杂志 Neural Networks 创刊 。 从 1988 年 开始 ， 国 际 神经 网 络 学 会 和 
IEEE 每 年 联合 召开 一 次 国际 学 术 年 会 。1990 ££, IEEE 神经 网 络 会 刊 问 世 ， 各 种 期 刊 的 神经 
网 络 特刊 层出不穷 ， 神 经 网 络 的 理论 研究 和 实际 应 用 进入 了 一 个 鞍 勃 发 展 的 时 期 。 

BP 算法 〈 反 向 传播 算法 ) 的 学 习 过 程 ， 由 信息 的 正 向 传播 和 误差 的 反 向 传播 两 个 过 程 组 
成 。 输 入 层 各 神经 元 负责 接收 来 自 外 界 的 输入 信息 ， 并 传递 给 中 间 层 各 神经 元 。 中 间 层 是 内 部 
信息 处 理 层 ,负责 信 息 变 换 ， 根 据 信 息 变化 能 力 的 需求 , 中 间 层 可 以 设计 为 单 隐 层 或 者 多 隐 层 
结构 。 最 后 一 个 隐 层 传递 到 输出 层 各 神经 元 的 信息 ,经 进一步 处 理 后 ， 完 成 一 次 学 习 的 正 向 传 
播 处 理 过 程 ， 由 输出 层 向 外 界 输出 信息 处 理 结果 。 当 实际 输出 与 期 望 输出 不 符 时 ,进入 误差 的 
反 向 传播 阶段 。 误差 通 过 输出 层 ， 按 误差 梯度 下 降 的 方式 修正 各 层 权 值 ， 向 隐 层 、 中 间 层 、 输 
入 层 逐 层 反 传 。 周 而 复 始 的 信息 正 向 传播 和 误差 反 向 传播 过 程 ， 是 各 层 权 值 不 断 调整 的 过 程 ， 
也 是 神经 网 络 学 习 训练 的 过 程 ,此 过 程 一 直 进行 到 网 络 输出 的 误差 减少 到 可 以 接受 的 程度 或 者 
预先 设 定 的 学 习 次 数 为 止 。 

目前 神经 网 络 的 研究 方向 和 应 用 很 多 , 反映 了 多 学 科 交叉 技术 领域 的 特点 。 主 要 的 研究 工 
作 集 中 在 以 下 几 个 方面 : 

@ ”生物 原型 研究 。 从 生理 学 、 心 理学 、 解 剖 学 、 脑 科学 、 病 理学 等 生物 科学 方面 研究 神 

经 细胞 、 神 经 网 络 、 神 经 系统 的 生物 原型 结构 及 其 功能 机 理 。 

€ ”建立 理论 模型 。 根据 生 物 原 型 的 研究 ， 建 立 神 经 元 、 神 经 网 络 的 理论 模型 。 其 中 包括 

概念 模型 、 知 识 模型 、 物 理化 学 模型 、 数 学 模型 等 。 

@ ”网络 模 型 与 算法 研究 。 在 理论 模型 研究 的 基础 上 构建 具体 的 神经 网 络 模型 ， 以 实现 计 

算 机 模拟 或 准备 制作 硬件 ,包括 网 络 学 习 算 法 的 研究 。 这 方面 的 工作 也 称 为 技术 模型 
研究 。 

€ ”人 工 神经 网 络 应 用 系统 。 在 网 络 模型 与 算法 研究 的 基础 上 , 利用 人 工 神经 网 络 组 成 实 

际 的 应 用 系统 ， 例 如 ， 完 成 某 种 信号 处 理 或 模式 识别 的 功能 、 构 造 专家 系统 、 制 成 机 
器 人 等 。 

纵 观 新 兴 科 学 技术 的 发 展 历史 ， 人 类 在 征服 宇宙 空间 、 基 本 粒子 、 生 命 起 源 等 科学 技术 领 
域 的 进程 中 历经 了 崎 邮 不 平 的 道路 。 我 们 也 会 看 到 , 探索 人 脑 功能 和 神经 网 络 的 研究 将 伴随 着 
重重 困难 的 克服 而 日 新 月 异 。 








9.2 Bp 神经 网 络 两 个 基础 算法 详解 


在 正式 介绍 BP 神经 网 络 之 前 ， 首 先 需 要 介绍 两 个 非常 重要 的 算法 ， 即 最 小 二 乘法 (LS 
算法 ) 和 随机 梯度 下 降 算 法 。 
最 小 二 乘法 是 统计 分 析 中 常用 的 逼近 计算 的 一 种 算法 ,其 交 蔡 计算 结果 使 得 最 终结 果 尽 可 
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能 地 逼近 真实 结果 。 随 机 梯度 下 降 算 法 充分 利用 了 TensorFlow 框架 的 图 运算 特性 的 欠 代 和 高 
效 性 , 通过 不 停 地 判断 和 选择 当前 目标 下 的 最 优 路 径 ,使 得 能 够 在 最 短路 径 下 达到 最 优 的 结果 ， 
从 而 提高 大 数据 的 计算 效率 。 


9.2.1 最 小 二 乘法 详解 

最 小 二 乘法 (LS 算法 ) 是 一 种 数学 优化 技术 ， 也 是 一 种 机 器 学 习 的 常用 算法 。 它 通过 最 
小 化 误差 的 平方 和 寻找 数据 的 最 佳 函数 匹配 。 利 用 最 小 二 乘法 可 以 简便 地 求 得 未 知 的 数据 , 并 
使 这 些 数据 与 实际 数据 之 间 误 差 的 平方 和 为 最 小 。 最 小 二 乘法 还 可 用 于 曲线 拟 合 , 其 他 一 些 优 
AE ja 8E tts T E Roo] vo Re ER o AC DC e] — Seiko s 

由 于 最 小 二 乘法 不 是 本 章 的 重点 内 容 ， 因 此 这 里 只 通过 一 个 图 示 〈 如 图 9-1 所 示 ) 向 读者 
演示 LS 算法 的 原理 。 








图 9-1 最 小 二 乘法 原理 


从 图 9-1 可 以 看 到 ,若干 个 点 依次 分 布 在 向 量 空间 中 , 如 果 希 望 找 出 一 条 直线 和 这 些 点 达 
到 最 佳 匹配 , 那么 最 简单 的 一 个 方法 就 是 希望 这 些 点 到 直线 的 值 最 小 , 即 下 面 最 小 二 乘法 实现 
公式 最 小 。 


f(x)=axt+b 
6= YC -7 
这 里 直接 应 用 的 是 真实 值 与 计算 值 之 间 的 差 的 平方 和 。 具体 而 言 , 这 种 差 值 有 一 个 专门 的 
名 称 ， 即 “ 残 差 ”。 基 于 此 ， 表 达 残 差 的 方式 有 以 下 三 种 : 


o 范 数 : 残 差 绝对 值 的 最 大 值 职 aX,i|， 即 所 有 数据 点 中 残 差距 离 的 最 大 值 。 
e LI-A: 绝对 残 差 和 了 并 1 |Ti|， 即 所 有 数据 点 残 差距 离 之 和 .。 
e Li: ARETAAY sg) 


所 谓 的 最 小 二 乘法 是 L2- 范 数 的 一 个 具体 应 用 。 通 俗 地 说 ,就 是 看 模型 计算 的 结果 与 真实 
值 之 间 的 相似 性 。 
因此 ， 最 小 二 乘法 的 定义 可 为 : 对 于 给 定 的 数据 o y) (i=1,…,m)， 在 确定 的 假设 空 
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间 万 中 ,求解 ft) e 及 ， 使 得 残 差 5 = 》 (f(x) -yh L2- 范 数 最 小 。 
看 到 这 里 可 能 有 人 会 问 , 这 里 的 Rx) 又 该 如 何 表示 呢 ? 实 际 上 函数 x) 是 一 条 多 项 式 曲线 : 
frw)=wotwoxtwox twox "+ wox” 
继续 讨论 下 去 ， 所 谓 的 最 小 二 乘法 就 是 找到 一 组 权重 w， 使 得 6 = >》 doo -yD UN. dX 
样 问题 就 又 来 了 ， 如 何 能 使 得 最 小 二 乘法 最 小 呢 ? 
对 于 求 出 最 小 二 乘法 的 结果 , 可 以 通过 数学 上 的 微 积分 处 理 方法 获得 。 这 是 一 个 求 极 值 的 
问题 ， 只 需要 对 权 值 依次 求 偏 导数 ， 最 后 令 偏 导数 为 0 即 可 求 出 极 值 点 。 


2>,(wo+ w,x,-y,) -0 
1 











Ow, 

ó c 

E rcg -y)x,-0 

Sw, 之 Co+ WwWIXi 一 yi) X; 

= 22,08 W,X,-y;)X, -0 
具体 实现 最 小 二 乘法 的 代码 如 程序 9-1: 


【程序 9-1】 
import numpy as np 
from matplotlib import pyplot as plt 


A = np.array([[5], [4]]) 

C = np.array([[4], [611) 

B = A.T.dot (C) 

AA = np.linalg.inv(A.T.dot(A)) 
l-AA.dot (B) 

P-A.dot (1) 


x-np.linspace(-2,2,10) 
x.shape- (1,10) 
XX-A.dot (x) 

fig = plt.figure() 

ax- fig.add subplot (111) 
ax.plot(xx[0,:],xx|1,:]) 
ax.plot(A[0],A[1], 'ko') 


ax.plot([C[0], P[0] ], [C[1], P[11], 'r-o') 
ax.plot([0,C[0]], [0,C[1]], 'm-o') 


ax.axvline(x-0,color-'black') 
ax.axhline(y-0,color-'black') 
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ax.text(A[0]-margin, A[1]*margin, r"A",fontsize-20) 
ax.text(C[0]-margin, C[1]*margin, r"C",fontsize-20) 
ax.text(P[0]-margin, P[1]*margin, r"P",fontsize-20) 
ax.text (0+margin, 0*margin,r"O",fontsize-20) 

ax.text (0+margin 4+margin r"y",fontsize-20) 
ax.text (4+margin, 0+margin, r"x",fontsize-20) 
plt.xticks (np.arange (-2,3)) 

plt.yticks (np.arange (-2,3)) 


ax.axis ('equal') 
plt.show() 


最 终结 果 如 图 9-2 所 示 。 











IT 


图 9-2 ”最 小 二 乘法 拟 合 曲线 


9.22 道士 下 山 的 故事 一 一 梯度 下 降 算法 
在 介绍 随机 梯度 下 降 算法 之 前 ， 给 大 家 讲 一 个 道士 下 山 的 故事 。 请 读者 参看 图 9-3。 





图 9-3 模拟 随机 梯度 下 降 算法 的 演示 图 


这 是 一 个 模拟 随机 梯度 下 降 算法 的 演示 图 。 为 了 便于 理解 , 我 们 将 其 比喻 成 道士 想 要 出 去 
游玩 的 一 座 山 。 
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设想 道 十 有 一 天 和 道 友 一 起 到 一 座 不 太 熟 悉 的 山上 去 玩 ， 在 兴趣 鼻 然 中 很 快 地 登 上 了 山 
项。 但 是 天 有 不 测 风云 ， 下 起 了 大 雨 。 如 果 这 时 需要 道士 和 其 同 来 的 道 友 以 最 快 的 速度 下 山 
那么 该 怎么 办 呢 ? 

如 果 想 以 最 快 的 速度 下 山 , 那么 最 好 的 办 法 就 是 顺 着 坡度 最 陡峭 的 地 方 走 下 去 。 但 是 由 于 
不 熟悉 山路 ,道士 在 下 山 的 过 程 中 , 每 走 过 一 段 路 程 就 需要 停 下 来 观望 ， 从 而 选择 最 陡峭 的 下 
山路 。 这 样 一 路 走 下 来 的 话 ， 可 以 在 最 短 时 间 内 走 到 底 。 

从 图 上 可 以 近似 地 表示 为 : 

0—-0-0-0-6-0-0 

每 个 数字 代表 每 次 停顿 的 地 点 ， 这 样 只 需要 在 每 个 停顿 的 地 点 选择 最 陡峭 的 下 山路 即 可 。 

这 就 是 一 个 道士 下 山 的 故事 。 随 机 梯度 下 降 算法 和 这 个 类 似 , 如果 想 要 使 用 最 迅捷 的 方法 
那么 最 简单 的 办 法 就 是 在 下 降 一 个 梯度 的 阶层 后 , 寻找 一 个 当前 获得 的 最 大 坡度 继续 下 降 。 这 
就 是 随机 梯度 算法 的 原理 。 

从 上 面 的 例子 可 以 看 到 ,随机 梯度 下 降 算法 就 是 不 停 地 寻找 某 个 节点 中 下 降幅 度 最 大 的 屠 
个 趋势 进行 兴 代 计算 , 直到 将 数据 收缩 到 符合 要 求 的 范围 为 止 。 通 过 数学 公式 表达 的 方式 计算 
的 话 ， 公 式 如 下 : 

f(O) = Ooxo + 03x3 + 0,x, = bi 8,3; 

在 上 一 节 讲 解 最 小 二 乘法 的 时 候 ， 我 们 通过 最 小 二 乘法 说 明了 直接 求解 最 优化 变量 的 方 
法 ， 也 介绍 了 在 求解 过 程 中 的 前 提 条 件 是 要 求 计算 值 与 实际 值 的 偏差 的 平方 最 小 。 

但 是 在 随机 梯度 下 降 算法 中 ， 对 于 系数 需要 通过 不 停 地 求解 出 当前 位 置 下 最 优化 的 数据 。 
这 通过 数学 方式 表达 的 话 就 是 不 停 地 对 系数 9 求 偏 导数 ， 即 公式 如 下 所 示 : 

ð ð 1 
gl 7 5559 (0 -902 = FO) -yi 

公式 中 9 会 向 着 梯度 下 降 最 快 的 方向 减少 ， 从 而 推断 出 6 的 最 优 解 。 

因此 可 以 说 随机 梯度 下 降 算 法 最 终 被 归结 为 通过 迭代 计算 特征 值 从 而 求 出 最 合适 的 值 。8 
求解 的 公式 如 下 : 

8 =0— a(f(0) — yi)xi 

公式 中 a 是 下 降 系数 。 用 较为 通俗 的 话 表示 就 是 用 以 计算 每 次 下 降 的 幅度 大 小 。 系 数 越 
大 ， 每 次 计算 中 的 差 值 越 大 ， 系 数 越 小 ， 差 值 越 小 ， 但 是 计算 时 间 相对 延长 。 

随机 梯度 下 降 算法 将 梯度 下 降 算 法 通过 一 个 模型 来 表示 的 话 ， 可 以 如 图 9-4 所 示 这 样 。 
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9-4 ”随机 梯度 下 降 算法 过 程 


从 图 中 可 以 看 到 , 实现 随机 梯度 下 降 算 法 的 关键 是 拟 合算 法 的 实现 。 而 本 例 的 拟 合算 法 实 


现 较 为 简单 ， 通 过 不 停 地 修正 数据 值 从 而 达到 数据 的 最 优 值 。 


随机 梯度 下 降 算 法 在 神经 网 络 特别 是 机 器 学 习 中 应 用 较 广 ， 但 是 由 于 其 天 生 的 缺陷 ， 噪 
声 较 多 ， 使 得 在 计算 过 程 中 并 不 是 都 向 着 整体 最 优 解 的 方向 优化 ， 往 往 可 能 只 是 一 个 局 部 最 
优 解 。 为 了 克服 这 些 困 难 ， 一 个 最 好 的 办 法 就 是 增 大 数据 量 ， 在 不 停 地 使 用 数据 进行 迭代 处 


理 的 时 候 ， 能 够 确保 整体 的 方向 是 全 局 最 优 解 ， 或 者 最 优 结果 在 全 局 最 优 解 附 近 。 


【程序 9-2】 
ic EL Uo spa (us Oo sys (Ub do sg (c EX (i 
y = [5, 6, 8, 10, 11] 


epsilon = 0.002 


alpha - 0.02 
diff = [0, 0] 
max itor = 1000 
error0 = 0 
errorl = 0 

cnt = 0 

m — len(x) 


theta0 = 0 
thetal = 0 
theta2 = 0 


while True: 
ente cem T 


for i in range (m): 


diff[0] = (thetaO * x[i] [0] + thetal * x[i][1] + theta2 * x[i] [2]) - y[i] 
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theta0 -= alpha * diff[0] * x[i]l[0] 
thetal -= alpha * diff[0] * x[i][1] 
theta2 -= alpha * diff[0] * x[i][2] 


errori = 0 
for lp in range (len(x)): 
errorl += (y[lp] - (theta0 + thetal * x[1p] [1] + theta2 * x[1p][2])) ** 
gu 8 
if abs(errorl - error0) « epsilon: 
break 
else: 
error0 = errorl 


print ('theta0 : $f, thetal : $f, theta2 : %f, errorl : $f' % (theta0, thetal, 
theta2, errorl)) 
print('Done: theta0 : $f, thetal : $f, theta2 : $f' % (theta0, thetal, theta2)) 


print (RKM: $d' $ cnt) 
最 终结 果 打印 如 下 : 


theta0 : 0.100684, thetal : 1.564907，theta2 : 1.920652, errorl : 0.569459 
Done: theta0 : 0.100684, thetal : 1.564907, theta2 : 1.920652 
ARRA: 2118 


从 结果 来 看 ， 和 迭代 2118 次 即 可 获得 最 优 解 。 


9 e 3 TensorFlow 实战 一 一 房屋 价格 的 计算 


在 介绍 完 基本 理论 之 后 ， 下 面 将 带领 读者 使 用 TensorFlow 解决 实际 生活 中 的 一 个 问题 ， 
即 房屋 价格 和 面积 之 间 的 关系 。 这 是 一 个 简单 的 模型 , 目前 也 仅仅 考虑 了 房屋 面积 的 大 小 和 价 
格 的 直接 关系 。 虽然 这 在 现实 中 是 非常 简单 的 计算 方法 , 但 是 使 用 这 个 例子 可 以 综合 运用 到 上 
文 介绍 的 两 个 理论 方法 ， 加 深 读 者 对 其 中 算法 的 理解 。 

除 此 之 外 ， 还 将 介绍 通过 TensorFlow 创建 一 个 完整 程序 的 例子 。 在 之 前 的 代码 练习 中 ， 
基本 上 都 是 以 Python 为 主 ， 这 里 将 据 此 完整 分 析 示 例 ， 展 示 从 数据 分 析 到 模型 训练 再 到 结果 
输出 的 过 程 。 


9.3.4. 数据 收集 


首先 从 收集 到 的 一 组 数据 开始 , 图 9-5 展示 了 某 城 市 房屋 的 价格 与 面积 之 间 的 关系 , 每 个 
数据 点 代表 一 个 例子 ， 即 输出 值 〈 房 屋 价格 ) 与 输入 值 〈 房 屋面 积 ) 之 间 的 关系 。 
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» 价格 





70 80 90 100 10 
图 9-5 房屋 的 价格 与 面积 之 间 的 关系 


这 是 基于 已 有 数据 的 统计 展示 , 也 是 对 已 经 有 价格 的 房屋 面积 所 呈现 的 一 一 对 应 关系 。 从 
图 中 可 以 看 出 ， 大 多 数 的 数据 都 可 以 有 对 应 的 关系 ， 但 是 有 某 些 位 置 价格 还 未 确定 的 数据 点 ， 
即 待定 样本 点 ， 就 无 法 较为 准确 地 判定 其 输出 值 。 


9.32 ”模型 的 建立 与 计算 


现在 可 以 看 到 ， 本 例子 需要 建立 一 个 可 用 的 模型 ， 即 输入 数据 点 的 输入 值 〈 房 屋 价格 ， 
即 可 准确 地 得 出 预测 输出 值 〈 房 屋面 积 ) 。 

首先 是 对 于 模型 的 选择 ， 需 要 一 个 能 够 拟 合 收集 到 数据 的 最 佳 模型 ， 这 个 模型 既 可 以 是 线 
性 模型 ， 也 可 以 是 指数 模型 。 

随 着 图 9-6 给 出 的 不 同 模拟 拟 合 函 数 , 似乎 从 图 上 可 以 看 到 ,这 些 拟 合 函数 都 可 以 反映 出 
房屋 价格 和 面积 之 间 的 关系 。 








[ZA * eu 
e. e. 
~ 
^ 
*jle . 
./ e ® e 
* > 
图 9-6 模型 的 选择 


为 了 比较 和 分 辨 出 哪个 模型 能 够 更 好 地 反应 出 现实 的 价格 和 面积 的 关系 , 因此 需要 一 个 判 
定 拟 合 模型 最 符合 最 佳 关系 的 函数 。 这 个 函数 被 称 为 “损失 函数 ”或 者 “成 本 函数 ”。 成 本 函 
数 代表 的 是 每 个 模型 上 的 每 个 数据 点 与 实际 输出 值 之 间 偏差 的 绝对 值 . 因 为 有 的 时 候 差 值 是 负 
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数 ， 所 以 会 以 差 值 的 平方 代 蔡 。 即 : 


8-5» (G«)-y) 
这 也 是 最 小 二 乘法 的 公式 。 








um 真实 情况 下 , 除了 最 小 二 乘法 , 还 有 其 他 的 损失 函数 , 等 后 文 需要 引入 的 时 候 我 们 再 介绍 。 | 











当然 了 , 无 论 选择 线性 模型 或 是 曲线 模型 ,都 可 以 拟 合 出 模型 , 但 是 本 例 将 通过 线性 模型 
来 对 数据 进行 建 模 。 线 性 模型 的 表达 式 为 : 


w: 


x: 


b: 


y: 


系数 权重 。 
房屋 面积 。 
偏 置 系数 。 
输出 价格 。 


y-wxxtb-f(x,w) 


从 公式 上 看 ， 这 里 所 需要 计算 的 主要 是 两 个 参数 ， 即 系数 权重 与 偏 置 系数 。 因 此 模型 曲线 


的 建立 转化 为 求 w I b 的 值 上 。 


如 果 用 传统 的 方法 去 求 取 系数 值 ， 在 本 例 中 虽然 也 可 以 较为 简单 地 求 得 w 和 4b 的 值 ， 但 
是 随 着 系数 的 增加 ， 其 求解 难度 会 呈现 指数 级 的 增加 ， 这 在 计算 过 程 中 往往 就 会 成 为 “计算 赴 
梦 ”， 使 得 我 们 无 法 求解 得 到 最 终 的 结果 。 

梯度 下 降 算法 是 能 够 逐步 计算 出 最 优 解 的 方法 〈 见 图 9-7) ， 它 牺牲 了 在 系数 低 状态 时 的 
便捷 性 ， 换 得 了 对 所 求 系数 多 的 时 候 能 够 计算 下 去 的 方法 。 














图 9-7 梯度 下 降 算法 对 系数 的 更 新 


梯度 下 降 算法 ed 计算 在 9.2.2 节 中 已 经 有 演示 ， 这 里 就 不 做 介绍 了 。 
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9.3.3 TensorFlow 程序 设计 


现在 可 以 看 到 ， 本 例子 需要 建立 一 个 可 用 的 模型 ， 即 输入 数据 点 的 输入 值 ， 可 准确 地 得 出 
预测 输出 值 。 


步骤 一 
首先 是 程序 所 需要 使 用 的 包 的 导入 : 


import tensorflow as tf 

import numpy as np 

其 中 TensorFlow 是 计算 时 使 用 的 ， 而 NumPy 提供 常用 的 数据 处 理 函数 。 

其 次 是 获取 房价 和 房屋 面积 的 数据 ， 本 例 中 数据 采用 随机 生成 的 形式 ， 可 以 由 如 下 函数 
生成 : 

XS = np.random.randint (46, 99,100) 

Vo 

这 里 由 NumPy 中 的 随机 函数 随机 生成 100 个 范围 在 46~99 的 整 型 数 ， 之 后 计算 房屋 的 价 
格 ， 这 里 把 房屋 的 面积 乘 以 1.7 作为 房屋 的 价格 。 

下 面 是 关于 TensorFlow 程序 模型 的 建立 ， 首 先 第 一 步 就 是 TensorFlow 的 2 个 基本 组 件 : 
占 位 符 与 变量 。 

前 面 已 经 说 过 ， 占 位 符 的 作用 是 把 数据 像 子弹 一 样 源源 不 断 地 填 入 到 TensorFlow 的 程序 
图 中 ， 而 变量 的 作用 是 可 以 即时 地 赋予 新 的 数据 。 


X = tf.placeholder (tf.float32) 
y = tf.placeholder (tf.f10at32) 


这 里 的 x 和 y 分 别 被 定义 为 一 个 float32 位 的 占 位 符 ， 其 作用 是 把 真实 值 导入 到 计算 图 
中 。 

w — tf.Variable(0.1) 

b = tf.Variable(0.1) 

步骤 二 

w 和 是 在 模型 运行 时 所 用 到 的 系数 ， 被 定义 为 TensorFlow 变量 ， 在 计算 时 需要 不 停 地 
改变 其 中 的 变量 以 便 模型 能 够 更 好 地 拟 合 。 有 一 点 需要 读者 注意 ， 这 里 变量 的 初始 值 被 设 定 
为 0.1， 这 是 数据 格式 的 另 一 种 表示 方式 ， 即 w 和 均 为 float32 格式 的 数据 。 

下 面 是 模型 拟 合 曲线 的 建立 : 

y = tf.multiply(w,x) + b 

y _ 就 是 定义 了 一 个 计算 公式 ， 即 w 与 x 的 乘积 之 后 与 b 求 和 。 这 也 是 我 们 定义 的 拟 合 公 
式 。 

之 后 还 有 一 个 非常 重要 的 内 容 就 是 损失 函数 的 确定 ， 在 上 文中 ， 使 用 了 最 小 二 乘法 作为 
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模型 的 损失 函数 ， 这 里 需要 将 其 转化 成 代码 的 形式 。 
cost = tf.reduce sum(tf.pow((y - y )v2)) 
其 中 y 5 y 分 别 为 真实 值 与 拟 合 曲线 计算 出 的 值 ， 其 差 值 的 平方 和 作为 损失 函数 。 而 梯 


度 下 降 是 为 了 在 图 计算 的 过 程 中 寻找 梯度 下 降 最 快 的 那个 方向 ， 即 可 用 于 计算 修正 系数 。 
TensorFlow 中 自 带 了 梯度 下 降 函 数 : 


train step = tf.train.GradientDescentOptimizer (0.02) .minimize (cost) 

函数 中 需要 设 定 学 习 率 以 及 所 需要 最 小 化 的 目标 ， 即 要 求 最 小 化 损失 函数 。 

有 了 线性 模型 、 损 失 函 数 以 及 定义 完毕 梯度 下 降 函 数 ， 即 可 以 输入 数据 进入 模型 的 训练 
阶段 。 

步骤 三 

任何 一 个 TensorFlow 构成 的 计算 图 都 要 在 一 个 会 话 中 进行 ， 因 此 需要 创建 一 个 会 话 ， 初 
始 化 变量 ， 之 后 使 用 会 话 的 run 函数 去 执行 图 运算 。 


init = tf.global variables initializer() 
sess = tf.Session() 

sess.run (init) 

for in range(10): 


sess.run(train step,feed dict-(x:xs,y:ys)) 


for 循环 设置 了 循环 次 数 ， 这 里 可 以 使 用 固定 的 循环 次 数 ， 也 可 以 设置 损失 函数 的 值 为 计 
算 门 槛 。 
整体 的 计算 函数 分 解 如 图 9-8 所 示 。 


train step = tf.train.GradientDescentOptimizer(0.00001).minimize(cost) 


cost = tf.reduce mean(tf.pow((y -y), 2)) 


y. = tf.placeholder(tffioat32, [None, 1]) qetimamugew sb 


x = tf.placeholder(tf.float32, [None, 1]) 
图 9-8 函数 分 解 图 


对 于 整体 步骤 ， 首 先是 让 输入 的 数据 进入 模型 中 ， 之 后 构建 数据 模型 ， 根 据 梯度 下 降 算 
法 更 新 一 次 模型 的 权重 值 ， 之 后 进入 下 一 次 迭代 ， 如 图 9-9 所 示 。 
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Cost: tf.reduce_mean(tf.square(y_ - yj 
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Update I Train: tva d - zero) rinkmteei colt) 
V 
Gradient Descent 
cost | ^ 


Tweak W, b' 


一 Reduce Cost for (x, y. ) 
图 9-9 i35( POET EXER 


下 一 次 迭代 过 程 中 ， 重 复 以 上 这 个 步骤 ， 但 是 会 使 用 一 个 不 同 的 数据 点 去 计算 。 直 到 达 
到 预定 的 友 代 次 数 或 者 损失 函数 的 差 值 在 阔 值 之 内 ， 从 而 停止 神经 网 络 的 训练 。 








在 大 多 数 情况 下 ， 数 据点 越 多 ,模型 的 训练 和 学 习 效 果 越 高 ; 而 当 数 据 量 不 足 时 ， 可 以 通 
过 增 大 迭代 次 数 ， 重 复 使 用 已 用 的 数据 点 ， 虽 然 此 时 数据 不 一 样 ， 但 是 在 计算 时 w fub 
已 经 发 生 了 变化 ， 因 此 并 不 影响 权重 更 新 。 


一 一 








7.47. 反馈 神经 网 络 反 向 传播 算法 介绍 


反 向 传播 算法 是 神经 网 络 的 核心 与 精髓 ， 在 其 训练 实践 中 拥有 举足轻重 的 地 位 。 

通俗 一 点 解释 , 所 谓 的 反 向 传播 算法 就 是 复合 函数 的 链 式 求 导 法 则 的 一 个 强大 应 用 , 而 且 
实际 上 的 应 用 比 起 理论 上 的 推导 要 强大 得 多 。 本 节 将 介绍 反 向 传播 算法 的 一 个 最 简单 模型 的 推 
导 ， 虽 然 模型 简单 ， 但 是 这 个 简单 的 模型 是 反 向 传播 算法 应 用 的 基础 。 


9.4.1 深度 学 习 基础 


机 器 学 习 在 理论 上 可 以 看 作 是 统计 学 在 计算 机 科学 上 的 一 个 应 用 。 在 统计 学 上 , 一 个 非常 
重要 的 内 容 就 是 拟 合 和 预测 , 即 基于 以 往 的 数据 , 建立 光滑 的 曲线 模型 以 反映 数据 结果 与 数据 
变量 的 对 应 关系 。 

深度 学 习 为 统计 学 的 应 用 , 同样 也 是 为 了 寻找 结果 与 影响 因素 的 一 一 对 应 关系 ,只 不 过 样 
本 点 由 狭义 的 x 和 y 扩展 到 向 量 、 和 矩阵 等 广义 的 对 应 点 。 此 时 ， 由 于 数据 的 复杂 ， 对 应 关系 模 
型 的 复杂 度 也 随 之 增加 ， 而 不 能 用 一 个 简单 的 函数 来 表达 。 

数学 上 通过 建立 复杂 的 高 次 多 元 的 函数 解决 复杂 模型 拟 合 的 问题 , 但 是 大 多 数 都 失败 , 因 
为 过 于 复杂 的 函数 式 是 无 法 进行 求解 的 ， 也 就 是 其 公式 的 获取 不 可 能 。 
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基于 前 人 的 研究 ， 科 研 工作 人 员 发 现 可 以 通过 神经 网 络 来 表示 这 样 的 一 个 一 一 对 应 关系 ， 
而 神经 网 络 本 质 就 是 一 个 多 元 复合 函数 。 通过 增加 神经 网 络 的 层次 和 神经 单元 , 可 以 更 好 地 表 
达 函 数 的 复合 关系 ， 如 图 9-10 所 示 。 





9-10 多 层 神 经 网 络 的 表示 


图 9-10 表示 多 层 神经 网 络 的 一 个 图 像 表 达 方式 ， 这 与 我 们 在 前 面 TensorFlow 游乐 场 中 看 
到 的 神经 网 络 模型 类 似 。 事 实 上 也 是 如 此 ， 通 过 设置 输入 层 、 隐 藏 层 与 输出 层 , 可 以 形成 一 个 
多 元 函数 求解 相关 问题 。 
如 果 通 过 数学 表达 式 将 多 层 神 经 网 络 模型 表达 出 来 ， 则 公式 如 图 9-11 所 示 。 
a = (wii X4 十 wiz 十 xz 十 Wi3 十 xs 十 万 ) 
az = f (w21 + X4 + W22 + X2 + W23 + X3 + b2) 
aa = f (w31 + X4 + W32 + X2 + W33 + X3 + b3) 
h(x) = f (w11 + à4 + w12 + az + w13 + a3 + b) 
图 9-11 多 层 神 经 网 络 的 数学 表达 
其 中 , x 是 输入 数值 ，w 是 相 邻 神经 元 之 间 的 权重 ， 也 就 是 神经 网 络 在 训练 过 程 中 需要 学 
习 的 参数 。 与 线性 回归 相 类 似 的 是 ， 神 经 网 络 学 习 同 样 需 要 一 个 “损失 函数 ”， 即 训练 目标 
通过 调整 每 个 权重 值 w 来 使 得 损失 函数 最 小 。 前 面 在 讲解 梯度 下 降 算 法 的 时 候 已 经 说 过 ， 如 
果 权 重 过 多 或 者 指数 过 大 时 ， 直 接 求解 系数 是 不 可 能 的 ， 因 此 梯度 下 降 算 法 是 能 够 求解 权重 
的 比较 好 的 方法 。 
9.4.2” 链 式 求 导 法 则 
在 前 面 梯度 下 降 算法 的 介绍 中 , 并 没有 对 其 背后 的 原理 做 出 比较 详细 的 介绍 。 实际 上 梯度 
下 降 算 法 就 是 链 式 法 则 的 一 个 具体 应 用 ， 如 果 把 前 面 公式 中 损失 函数 以 向 量 的 形式 表示 为 : 
h(x) = f (wii Wig Wis Wi, wij) 


那么 其 梯度 向 量 则 为 : 
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OW, OW, ^ OW, 
因此 可 以 看 到 ， 其 实 所 谓 的 梯度 向 量 就 是 求 出 函数 在 每 个 向 量 上 的 偏 导数 之 和 。 这 也 是 


链 式 法 则 善于 解决 的 方面 。 
下 面 以 e-(a*b) X(b*1) (其 中 a=2、b=1) 为 例子 ， 计 算 其 偏 导数 。 


【 例 9-1] 
e=(a+b)X(b+1) 的 示意 图 如 图 9-12 所 示 。 











e — 3 


图 9-12 e=(a+b)X (b- Vy CER 
在 本 例 中 为 了 求 得 最 终 值 e 对 各 个 点 的 梯度 ， 需 要 将 各 个 点 与 e 联 系 在 一 起 ， 例 如 期 望 求 
得 e 对 输入 点 a 的 梯度 ， 只 需要 求 得 : 
ĝe 0e 0c 
Oa Oc Oa 
这 样 就 把 e 与 a 的 梯度 联系 在 一 起 ， 同 理 可 得 : 


用 图 示 表 示 如 图 9-13 所 示 。 





图 9-13 链 式 法 则 的 应 用 
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这 样 做 的 好 处 是 显而易见 的 ， 求 e 对 a 的 偏 导数 只 需要 建立 一 个 e 到 wa 的 路 径 ， 途 中 经 过 
c， 那 么 通过 相关 的 求 导 链接 就 可 以 得 到 所 需要 的 值 。 对 于 求 e 对 b 的 偏 导数 ， 也 只 需要 建立 
所 有 e 到 5b 路径 中 的 求 导 路 径 ， 从 而 获得 需要 的 值 。 


9.4.3 ”反馈 神经 网 络 原理 与 公式 推导 


在 求 导 过 程 中 ， 可 能 有 读者 已 经 注意 到 ， 如 果 拉 长 了 求 导 过 程 或 者 增加 了 其 中 的 单元 ， 
那么 就 会 大 大 增加 其 中 的 计算 过 程 ， 即 很 多 偏 导数 的 求 导 过 程 会 被 反复 地 计算 ， 因 此 ,在 实践 
中 对 于 权 值 达到 上 十 万 或 者 上 百 万 的 神经 网 络 来 说 ， 这 样 的 重复 元 余 所 导致 的 计算 量 是 很 大 
的 。 

同样 是 为 了 求 得 对 权重 的 更 新 ， 反 馈 神经 网 络 算法 将 训练 误差 E 看 作为 以 权重 向 量 中 每 
个 元 素 为 变量 的 高 维 函 数 ， 通 过 不 断 地 更 新 权重 ， 寻 找 训练 误差 的 最 低 点 ， 按 误差 函数 梯度 下 
降 的 方向 更 新 权 值 。 








um 具体 计算 公式 在 本 节 后 半 部 分 进行 推导 。 | 











首先 求 得 最 后 的 输出 层 与 真实 值 之 间 的 差距 ， 如 图 9-14 所 示 。 





图 9-14 反馈 神经 网 络 最 终 误差 的 计算 


之 后 以 计算 出 的 测量 值 与 真实 值 为 起 点 ， 反 向 传播 到 上 一 个 节点 ， 并 计算 出 节点 的 误差 
值 ， 如 图 9-15 所 示 。 


DEI 





图 9-15 反馈 神经 网 络 输出 层 误差 的 传播 


以 后 将 计算 出 的 节点 误差 重新 设置 为 起 点 ， 依 次 向 后 传播 误差 。 此 时 需要 注意 的 是 ， 对 
于 隐藏 层 ， 误 差 并 不 是 像 输 出 层 一 样 由 单个 节点 确定 ， 而 是 由 多 个 节点 确定 ， 因 此 对 其 计算 
要 求 得 到 所 有 的 误差 值 之 和 ， 如 图 9-16 所 示 。 
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8, = Wyda + Ws6s 


Ó, = W140, + Wiss 








图 9-16 反馈 神经 网 络 隐藏 层 误差 的 计算 


通俗 地 解释 ， 一 般 情况 下 误差 的 产生 是 由 于 输入 值 与 权重 的 计算 产生 了 错误 。 对 于 输入 值 
来 说 ， 它 往往 是 固定 不 变 的， 因此 如 果 对 误差 进行 调节 ， 就 需要 对 权重 进行 更 新 ， 如 图 9-17 
所 示 。 而 权重 的 更 新 又 是 以 输入 值 与 真实 值 的 偏差 为 基础 ， 当 最 终 层 的 输出 误差 被 反 向 一 层 
层 地 传递 回来 后 ， 每 个 节点 相应 地 被 分 配 了 适合 其 在 神经 网 络 地 位 中 所 担负 的 误差 ， 即 只 需 
要 更 新 它 所 需 承担 的 误差 量 。 









, dí (e) Js m a +a AO 
Wea = Wee + 176 a * Vo? Wap 05 708 
"m dfe) 
Wem= Wam HNS, dos, Vom Wam tI ge 罗 
x 





" dfe) 
V opi = Wana 7193 7 * 
de 


, dfe» 
Wam Wem +N —x 
(22 7 Met 091757 





图 9-17 反馈 神经 网 络 权重 的 更 新 
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Wis = Ws +N 2o, 5h 


9s Wa E à 75 — dio, Jı 


do, 









Wa3s= Wss NG —À—— vy, 


y 


W's = Wa à 


dfe) ,, 

Ua 
de 

Ws Ws 70 ———— den, 


x 5 





hd 


* 


图 9-17 反馈 神经 网 络 权重 的 更 新 ( 续 ) 


即 在 每 一 层 , 需要 维护 输出 对 当前 层 的 微分 值 ， 该 微分 值 相当 于 被 复 用 于 之 前 每 一 层 里 权 
值 的 微分 计算 。 因 此 空间 复杂 度 没 有 变化 ,同时 也 没有 重复 计算 ,每 一 个 微分 值 都 在 之 后 的 选 


代 中 使 用 。 


下 面 介绍 一 下 公式 的 推导 。 公 式 的 推导 需要 使 用 一 些 高 等 数学 的 知识 ， 读 者 可 以 跳 过 , 也 


可 以 选择 继续 学 习 。 


首先 是 算法 的 分 析 ， 前 面 已 经 说 过 ， 反 馈 神经 网 络 算法 主要 需要 知道 输出 值 与 真实 值 之 


间 的 差 值 。 
€ ”对 输出 层 单元 ， 误 差 项 是 真实 值 与 模型 计算 值 之 间 的 差 值 。 


€ ”对 于 隐藏 层 单元 ， 因 为 缺少 直接 的 目标 值 来 计算 隐藏 单元 的 误差 ， 因 此 需要 以 间接 
的 方式 来 计算 隐藏 层 的 误差 项 对 受 隐 藏 单 元 影响 的 每 一 个 单元 的 误差 进行 加 权 求 


和 。 


e 权 值 的 更 新 方面 ， 主 要 依靠 学 习 速 率 、 该 权 值 对 应 的 输入 以 及 单元 的 误差 项 。 


1. 定义 一 : 前 向 传播 算法 
对 于 前 向 传播 的 值 传递 ， 隐 藏 层 输 出 值 定义 如 下 : 


af! = WP x X, 
bf = flag 


输出 值 , /是 当前 阶 


其 中 ， 互 是 当前 节点 的 输入 值 ，W 扩 是 连接 到 此 节点 的 权重 ，a 人 是 
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段 的 激活 函数 ，b81 为 当前 节点 的 输入 值 经 过 计算 后 被 激活 的 值 。 

对 于 输出 层 ， 定 义 如 下 : 

ay = 2 War X bht 

其 中 ，Wix 为 输入 的 权重 ，b81 为 输入 到 输出 节点 的 输入 值 。 这 里 对 所 有 输入 值 进行 权重 
计算 后 求 得 的 值 ， 作 为 神经 网 络 的 最 后 输出 值 ak 。 

2. 定义 二 : 反 向 传播 算法 

与 前 向 传播 类 似 ， 需 要 首先 定义 两 个 值 6 71. 


= 
k ja, ^ T) 
aL 
om 
^ ^ gd 


其 中 ，6x 为 输出 层 的 误差 项 ， 其 计算 值 为 真实 值 与 模型 计算 值 之 间 的 差 值 , 了 是 计算 值 ; 
了 是 输出 真实 值 ，681 为 输出 层 的 误差 。 











E 对 于 6 与 681 来 说 ， 无 论 定义 在 哪个 位 置 ， 都 可 以 看 作 当 前 的 输出 值 对 于 输入 值 的 梯度 
[ 计算 。 

由 前 面 的 分 析 可 以 看 到 ， 所 谓 的 神经 网 络 反 馈 算 法 ， 就 是 逐 层 将 最 终 误差 进行 分 解 ， 即 
每 一 层 只 与 下 一 层 打交道 。 这 样 ,基于 此 点 可 以 假设 每 一 层 均 为 输出 层 的 前 一 个 层级 ， 通 过 计 
算 前 一 个 层级 与 输出 层 的 误差 得 到 权重 的 更 新 ， 如 图 9-18 所 示 。 











图 9-18 权重 的 逐 层 反 向 传导 
因此 反馈 神经 网 络 计算 公式 定义 为 : 
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_ L 


- x £' (aP) 
ob? 





= x £' (a7) 


0a, Ob, 
=ð, xX ipx a) 
XN xe xf'(GP) 
即 当 前 层 输出 值 对 误差 的 梯度 可 以 通过 下 一 层 的 误差 与 权重 和 输入 值 的 梯度 乘积 获得 。 
公式 所。 x 6, x (ay ) 中 64 若 为 输出 层 , 则 可 以 通过 6 = = =U- DRE: ili, 
非 输出 层 时 ， 则 可 以 使 用 逐 层 反馈 的 方式 求 得 8, 的 值 。 


cha 这 里 千 万 要 注意 ， 对 于 6 与 6 来 说 ， 其 计算 结果 都 是 当前 的 输出 值 对 于 输入 值 的 梯度 








li 


i 计算 ， 是 权重 更 新 过 程 中 一 个 非常 重要 的 数据 计算 内 容 。 








或 者 换 一 种 表述 形式 将 前 公式 表示 为 : 
E = FIS F a) 
可 以 看 到 ， 通 过 更 为 泛 化 的 公式 ， 把 当前 层 的 输出 对 输入 的 梯度 计算 转化 成 求 下 一 个 层 
级 的 梯度 计算 值 。 


3. 定义 三 : 权重 的 更 新 
反馈 神经 网 络 计算 的 目的 是 对 权重 的 更 新 , 因此 与 梯度 下 降 算法 类 似 , 其 更 新 可 以 仿照 梯 


度 下 降 对 权 值 的 更 新 公式 : 
8 —6 — a(f (8) — y)xi 
Bp: 
Wi = Wy +a x ô} X xy 
b; = bi +a x ôj 
其 中 , 广 表 示 为 反 向 传播 时 对 应 的 节点 系数 , 通过 对 全 的 计算 , 就 可 以 更 新 对 应 的 权重 值 。 


Wi 的 计算 公式 如 上 所 示 。 
对 于 没有 推导 的 b ， 其 推导 过 程 与 Wi 类似 ,但 是 在 推导 过 程 中 输入 值 是 被 消去 的 ， 请 读 


者 自行 查阅 相关 材料 。 
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9.4.4 ”反馈 神经 网 络 原理 的 激活 函数 
现在 回 到 反馈 神经 网 络 的 函数 : 
8 - Y wixa xf a 


对 于 此 公式 中 的 吗 和 加 全 以 及 所 需要 计算 的 目标 51 已 经 做 了 较为 详尽 的 解释 。 但 是 对 于 
f”(a!) 来 说 ， 却 一 直 没有 做 出 介绍 。 
回 到 前 面 生 物 神经 元 的 图 示 中 ， 传 递 进来 的 电信 号 通过 神经 元 进行 传递 ， 由 于 神经 元 的 
突 触 强 弱 是 有 一 定 的 敏感 度 的 ， 也 就 是 只 会 对 超过 一 定 范围 的 信号 进行 反馈 。 即 这 个 电信 号 
必须 大 于 某 个 阔 值 ， 神 经 元 才 会 被 激活 引起 后 续 的 传递 。 

在 训练 模型 中 同样 需要 设置 神经 元 的 阔 值 ， 即 神经 元 被 激活 的 频率 用 于 传递 相应 的 信 
息 ， 模 型 中 这 种 能 够 确定 是 否 当前 神经 元 节点 的 函数 被 称 为 “激活 函数 ”， 如 图 9-19 所 示 。 








Ises car 
away from cell body 


A cartoon drawing of a biological neuron (left) and its mathematical model (right). 


图 9-19 激活 函数 示意 图 
激活 函数 代表 生物 神经 元 中 接收 的 信号 强度 ， 目 前 应 用 范围 较 广 的 是 sigmoid 函数 。 因 为 
它 在 运行 过 程 中 只 接受 一 个 值 输出 ， 也 为 一 个 值 的 信号 ， 且 其 输出 值 为 0~1。 
1 
"Tire 


其 图 形 如 图 9-20 所 示 。 





T T 
1(1+exp(2)) — 











1 
6 4 2 0 2 4 6 


图 9-20 sigmoid 激活 函数 图 
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其 倒 函 数 求法 也 较为 简单 ， 即 : 
— e 
"Cun 
换 一 种 表示 方式 为 : 
f(x)' = fa) (l - fG)) 


Sigmoid 输入 一 个 实 值 的 数 ， 之 后 将 其 压缩 到 0~1。 特 别 是 对 于 较 大 值 的 负数 被 映射 成 0， 
而 大 的 正 数 被 映射 成 1。 

顺带 说 一 句 ，Sigmoid 函数 在 神经 网 络 模型 中 占据 了 很 长 时 间 的 统治 地 位 , 但 是 目前 已 经 
不 常 使 用 了 , 主要 原因 是 它 非常 容易 区 域 饱 和 ， 当 输入 开始 非常 大 或 者 非常 小 的 时 候 ， 其 梯度 
区 域 零 会 造成 在 传播 过 程 中 产生 接近 于 0 的 梯度 。 这 样 在 后 续 的 传播 时 会 造成 梯度 消散 的 现 
象 ， 因 此 并 不 适合 用 于 现代 的 神经 网 络 模型 。 

除 此 之 外 ， 近 年 来 涌现 出 大 量 新 的 激活 函数 模型 ， 例 如 Maxout、Tanh 和 ReLU 模型 ， 这 
些 都 是 为 了 解决 传统 的 Sigmoid 模型 在 更 深 程 度 上 的 神经 网 络 所 产生 的 各 种 不 良 影响 。 








um Sigmoid 模型 具体 的 使 用 和 影响 会 在 后 面 的 TensorFlow 实战 中 进行 介绍 。 | 








9.4.5 ”反馈 神经 网 络 原理 的 Python 实现 


本 节 将 使 用 Python 语言 对 神经 网 络 的 反馈 算法 做 一 个 实现 。 经 过 前 几 节 的 解释 ， 我 们 对 
神经 网 络 的 算法 和 描述 有 了 一 定 的 理解 ， 下 面 我 们 使 用 Python 代码 来 实现 一 个 自己 的 反馈 神 

为 了 简化 起 见 ， 这 里 的 神经 网 络 被 设置 成 三 层 ， 即 只 有 一 个 输入 层 、 一 个 隐藏 层 以 及 一 个 
最 终 的 输出 层 ， 如 图 9-21 所 示 。 


INPUT LAYER. 








图 9-21 一 个 隐 含 层 的 神经 网 络 
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首先 是 辅助 函数 的 确定 : 


def rand(a, b): 


return (b - a) * random.random() + a 


def make matrix (m,n,fill-0.0): 
mat = [] 
for i in range (m): 
mat.append([fill] * n) 
return mat 


def sigmoid(x): 
return 1.0 / (1.0 + math.exp(-x)) 


def sigmod derivate (x): 
return x * (I — x) 


这 里 首先 定义 了 随机 值 ， 使 用 random 包 中 的 random 函数 生成 了 一 系列 随机 数 ， 之 后 的 
make matrix 函数 生成 了 相对 应 的 矩阵 。sigmoid 和 sigmod derivate 分 别 是 激活 函数 和 激活 函 
数 的 倒 函 数 。 这 也 是 前 文 所 定义 的 内 容 。 

然后 进入 BP 神经 网 络 类 的 正式 定义 ， 类 的 定义 需要 对 数据 进行 内 容 的 设 定 。 

def Iit (serr): 

self.input_n = 0 
self.hidden_n = 0 

self.output_n = 0 

self.input_cells = [] 

self.hidden cells = [] 

self.output cells - [] 

self.input weights - [] 

self.output weights - [] 

init 函数 是 数据 内 容 的 初始 化 ， 即 在 其 中 设置 了 输入 层 、 隐 藏 层 以 及 输出 层 中 节点 的 个 
数 ; 各 个 cell 数据 是 各 个 层 中 节点 的 数值 ，weights 数据 代表 各 个 层 的 权重 。 

setup 函数 的 作用 是 对 init 函数 中 设 定 的 数据 进行 初始 化 。 

def setup(self,ni,nh,no): 
self.input n = ni * 1 
self.hidden n - nh 


self.output n = no 
self.input cells = [1.0] * self.input n 


self.hidden cells = [1.0] * self.hidden n 
self.output cells = [1.0] * self.output n 
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self.input weights = make matrix(self.input n,self.hidden n) 
self.output weights — make matrix(self.hidden n,self.output n) 
* random activate 
for i in range(self.input n): 
for h in range (self.hidden n): 


self.input weights[i][h] = rand(-0.2, 0.2) 
for h in range (self.hidden n): 


for o in range(self.output n): 


self.output weights[h] [o] = rand(-2.0, 


2.0) 
首先 需要 注意 ， 输 入 层 节点 个 数 被 设置 成 ni+1， 这 是 由 于 其 中 包含 bias 偏 置 数 ， 各 个 节 


点 与 1.0 相 乘 是 初始 化 节点 的 数值 ; 各 个 层 的 权重 值 根据 输入 层 、 隐 藏 层 以 及 输出 层 中 节点 的 
个 数 被 初始 化 及 赋值 。 


定义 完 各 个 层 的 数目 后 ， 下 面 进入 正式 的 神经 网 络 内 容 的 定义 。 首 先是 对 于 神经 网 络 前 
向 的 计算 。 


def predict (self,inputs): 
for i in range(self.input n - 1): 


self.input cells[i] 


inputs[i] 


for j in range (self.hidden n): 


total = 0.0 


for i in range(self.input n): 


total += self.input cells[i] * self.input weights[i][jl 
self.hidden cells[j] = sigmoid(total) 


for k in range(self.output n): 
total = 0.0 


for j in range(self.hidden n): 


total += self.hidden cells[j] * self.output weights[j][k] 
self.output cells[k] = sigmoid(total) 


return self.output cells[:] 


代码 段 中 将 数据 输入 到 函数 中 ， 通 过 隐藏 层 和 输出 层 的 计算 ， 最 终 以 数组 的 形式 输出 。 


同时 也 要 注意 到 ， 在 进行 前 向 计算 时 各 个 层 被 分 开 编写 ， 这 样 做 的 好 处 就 是 对 各 个 层 的 计算 
有 不 同 设计 方式 可 以 实现 ， 从 而 能 够 应 对 更 多 问题 。 


反馈 神经 网 络 的 Python 实现 最 终 如 程序 9-3 所 示 。 
【程序 9-3】 


import numpy as np 
import math 


import random 
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def rand(a, b): 


return (b - a) * random.random() + a 


def make matrix (m,n,fill-0.0): 
mat = [] 
for i in range (m): 
mat.append([fill] * n) 
return mat 


def sigmoid (x): 
return 1.0 / (1.0 + math.exp(-x)) 


def sigmod derivate (x): 
return x * (7 — xy 


class BPNeuralNetwork: 


def init (self): 
self.input n = 0 
self.hidden n - 0 
self.output n - 0 
self.input cells - [] 
self.hidden cells - [] 
self.output cells - [] 
self.input weights - [] 
self.output weights = [] 


def setup(self,ni,nh,no): 
self.input n- ni + 1 
self.hidden n - nh 


self.output n 


no 


self.input cells = [1.0] * self.input n 
self.hidden cells = [1.0] * self.hidden n 
self.output cells = [1.0] * self.output n 


self.input weights - make matrix(self.input n,self.hidden n) 


self.output weights = make matrix(self.hidden n,self.output n) 
* random activate 


for i in range(self.input n): 


for h in range (self.hidden n): 
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self.input weights[i][h] 


rand(-0.2, 0.2) 
for h in range (self.hidden n): 


for o in range(self.output n): 


self.output weights[h][o] = rand(-2.0, 2.0) 


def predict (self,inputs): 
for i in range(self.input n - 1): 


self.input cells[i] = inputs[i] 


for j in range(self.hidden n): 
total = 0.0 
for i in range(self.input n): 
total += self.input cells[i] * self.input weights[i][j] 
self.hidden cells[j] - sigmoid(total) 


for k in range(self.output n): 
total - 0.0 
for j in range (self.hidden n): 
total += self.hidden cells[j] * self.output weights[j][k] 
self.output cells[k] - sigmoid(total) 


return self.output cells[:] 
def back propagate (self,case,label,learn): 


self.predict (case) 
# 计 算 输 出 层 的 误差 
output deltas = [0.0] * self.output n 
for k in range(self.output n): 
error - label[k] - self.output cells[k] 
output deltas[k] - sigmod derivate(self.output cells[k]) * error 


# 计 算 隐藏 层 的 误差 
hidden deltas = [0.0] * self.hidden n 
for j in range (self.hidden n): 
error = 0.0 
for k in range(self.output n): 
error += output deltas[k] * self.output weights[j][kl 
hidden deltas[j] = sigmod derivate(self.hidden cells[j]) * error 


# 更 新 输出 层 权重 
for j in range (self.hidden_n): 


for k in range(self.output n): 
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self.output weights[j][k] += learn * output deltas[k] * 
self.hidden cells[j] 


# 更 新 隐藏 层 权 重 
for i in range(self.input n): 
for j in range (self.hidden n): 
self.input weights[i][j] *- learn * hidden deltas[j] * 
self.input cells[i] 


error = 0 
for o in range (len(label)): 
error += 0.5 * (label[o] - self.output cells[ol]) ** 2 


return error 


def train(self,cases,labels,limit = 100,1earn = 0.05): 
for i in range (limit): 
error = 0 
for i in range (len (cases)): 
label - labels[i] 
case = cases[i] 
error += self.back propagate(case, label, learn) 


pass 


def test(self): 

cases = [ 

[0, 0], 

[0, 1], 

[1, 0], 

[1, 1], 
] 
labels = [[0], [1], [1], [01] 
self.setup(2, 5, 1) 
self.train(cases, labels, 10000, 0.05) 
for case in cases: 


print (self.predict (case)) 





Hd _ omme main" 


nn = BBNeuralNetwork() 
nn.test() 
其 中 的 train. 函数 和 test 函数 分 别 是 程序 的 训练 函数 和 测试 函数 ， 训 练 函数 依次 将 数据 输 
入 到 计算 模型 中 ， 而 测试 数据 被 用 于 对 数据 结果 进行 测试 ， 最 终 打 印 结果 如 图 9-22 所 示 。 
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[0. 09026010223414448] 
[0. 9088942200464757] 
[0. 8999984121991694] 
[0. 08909449592645467] 


922 程序 9-3 计算 结果 


程序 训练 的 结果 与 真实 值 labels = [[0], [1], [1], [0]] 基 本 类 似 ， 因 此 可 以 认为 在 本 例 中 训练 
模型 是 有 效 的 。 


9.5 本 章 小 结 


本 章 内 容 是 全 书 的 重点 之 一 ， 也 是 神经 网 络 最 重要 的 内 容 。 

反馈 神经 网 络 最 基本 的 2 个 算法 : 最 小 二 乘法 以 及 梯度 下 降 方法 ， 本 章 都 做 了 详尽 的 解 
释 , 它 们 是 神经 网 络 最 基础 最 核心 的 内 容 。 虽 然 随 着 计算 机 硬件 的 提高 和 编程 能 力 的 加 强 ， 以 
及 对 神经 网 络 研究 的 加 深 ， 在 实际 使 用 中 有 更 好 的 算法 来 代 蔡 , 但 是 其 基本 理论 和 思路 都 是 类 
似 的 ， 并 没有 太 大 的 变化 ， 无 非 就 是 细 枝 末节 的 修改 。 因 此 建议 读者 对 本 章 的 内 容 做 重点 学 
2]. 

对 于 反馈 神经 网 络 ， 简 单 地 说 就 是 一 个 基于 上 述 两 个 算法 的 链 式 法 则 的 具体 应 用 。 虽 然 相 
对 于 传统 的 链 式 法 则 ， 神 经 网 络 的 链 式 法 则 为 了 节省 空间 和 计算 时 间 ， 将 每 个 节点 进行 递归 
计算 ， 从 而 使 得 神经 网 络 的 反馈 计算 能 够 在 多 隐藏 层 和 多 节点 的 前 提 下 运行 。 

本 章 使 用 Python 语言 实现 了 基础 算法 ， 这 里 并 不 是 要 求 读 者 去 独立 完成 和 编写 ， 而 是 希 
望 能 对 算法 的 具体 执行 过 程 有 更 进一步 的 了 解 ， 因 为 在 后 面 的 TensorFlow 框架 中 ， 这 些 算法 
都 是 被 整体 封装 而 不 能 够 探究 其 算法 细节 的 。 

从 下 一 章 开始 ， 我 们 将 进入 使 用 TensorFlow 解决 具体 问题 的 章节 ， 也 就 是 本 书写 作 的 目 
的 : 使 用 TensorFlow 完成 图 像 识 别 。 不 用 担心 ， 我 们 还 会 从 最 简单 的 demo 开始 ， 一 步 步 带 
领 大 家 从 理论 到 实践 逐步 解决 问题 。 
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对 于 任何 一 个 数据 处 理 的 框架 , 数据 的 生成 与 读 写 都 是 异常 复杂 和 需要 谨慎 处 理 的 , 特别 
是 对 TensorFlow 这 样 专门 用 于 数据 分 析 的 分 布 式 处 理 框架 ， nia 重 。 

TensorFlow 数据 处 理 框架 的 数据 制作 与 读 写 所 面临 的 最 大 挑战 要 覆盖 所 有 数据 的 可 
能 性 因素 , 这 里 不 仅仅 要 考虑 输入 的 数据 格式 、 框架 所 在 的 硬件 、 操作 系统 、 数据 存储 环境 等 ， 
还 要 处 理 和 应 对 大 量 的 不 同 的 读 取 方 式 以 及 庞大 的 数据 吞吐 量 。 

本 章 将 详细 介绍 TensorFlow 在 数据 生成 与 读 取 方 面 的 内 容 ， 介 绍 读 取 数据 的 线程 和 队列 
的 基本 概念 和 原理 ， 还 会 介绍 TensorFlow 数据 集 的 制作 ， 以 及 数据 的 输入 输出 原理 和 程序 设 
计 方 法 。 

本 书 的 目标 偏向 于 图 像 处 理 , 因此 在 程序 的 编写 上 将 以 输入 图 形 文件 为 主 , 相对 于 文本 的 
输入 ,图 像 文件 更 为 复杂 ,相信 读者 在 学 习 完 本 章 内 容 后 , 同样 会 对 编写 其 他 的 输入 输出 格式 
打下 坚实 的 基础 。 

















TensorFlow 的 队列 


“队列 (queue) 是 一 种 最 为 常用 的 数据 输入 输出 方式 ， booa i qi i ide 

iij f SEPA A PRAGE. a S A h REAA 73 — 3i Sz PR. TERRI E, fi 
Fohlen 的 队列 一 端 被 称 为 队 尾 ， 而 输出 和 删除 数据 元 素 的 一 端 被 称 为 队 首 。 

与 Python 中 所 使 用 的 队列 类 似 ，TensorFlow 同样 应 用 队列 作为 数据 的 一 种 基本 输入 输出 
方式 ， 可 以 将 新 的 数据 插入 到 队列 的 队 尾 ， 而 在 队 首 将 数据 输出 和 删除 。 当 然 在 TensorFlow 
中 ， 队 列 处 于 一 种 有 状态 节点 的 地 位 ， 随 着 其 他 节点 在 图 中 状态 的 改变 ， 队 列 这 个 “节点 ”的 
状态 可 以 随 之 改变 。 


10.1.1 队列 的 创建 


TensorFlow 中 队列 的 使 用 和 Python 中 队列 的 函数 类 似 ， 甚 至 它 的 函数 名 也 是 参考 Python 
中 函数 命名 的 。 其 函数 如 表 10-1 所 示 。 




















操作 
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表 10-1 TensorFlow 队列 常用 方法 汇总 


描 x 





class tf£.QueueBase 


基本 的 队列 应 用 类 ， 队 列 〈queue) 是 一 种 数据 结构 ， 该 结构 通过 多 个 
步骤 存储 tensors, 并 且 对 tensors 进行 入 列 (enqueue) 与 出 列 (dequeue) 
操作 





tf.enqueue(vals, name-None) 


将 一 个 元 素 编 入 该 队列 中 。 如 果 在 执行 该 操作 时 队列 已 满 ， 那 么 将 会 
阻塞 直到 元 素 编 入 队列 之 中 





tfenqueue many(vals, name-None) 


将 零 个 或 多 个 元 素 编 入 该 队列 中 





tf.dequeue(name-None) 


将 元 素 从 队列 中 移出 。 如 果 在 执行 该 操作 时 队列 已 空 ， 那 么 将 会 阻塞 
直到 元 素 出 列 ， 返 回 出 列 的 tensors 的 tuple 





tfdequeue many(n, name-None) 
tf.size(name-None) 

tf.close 

fdequeue up to(n. name-None) 
tf.dtypes 

tf.from list(index, queues) 
tf.name 

tf.names 

class t£.FIFOQueue 

class tf.PaddingFIFOQueue 





class tf.RandomShuffleQueue 


将 一 个 或 多 个 元 素 从 队列 中 移出 

计算 队列 中 的 元 素 个 数 

关闭 该 队列 

从 该 队列 中 移出 个 元 素 并 将 之 连接 

列 出 组 成 元 素 的 数据 类 型 

根据 queues[index] 的 参考 队列 创建 一 个 队列 
返回 队列 最 下 面 元 素 的 名 称 

返回 队列 每 一 个 组 成 部 分 的 名 称 

在 出 列 时 依照 先入 先 出 顺序 

一 个 FIFOQueue ， 同 时 根据 padding 支持 batching 变 长 的 tensor. 
该 队列 将 随机 元 素 出 列 


一 般 而 言 ， 创 建 一 个 队列 首先 需要 选 定数 据 的 出 入 类 型 ， 例 如 使 用 FIFOQueue 函数 设 定 
数据 为 先入 先 出 ， 还 是 使 用 RandomShuffleQueue 这 种 随机 元 素 出 列 的 方式 。 

q = tf.FIFOQueue (3, float") 

函数 的 第 一 个 参数 是 队列 中 数据 的 个 数 ， 第 二 个 参数 是 队列 中 元 素 的 类 型 。 

之 后 要 对 队列 中 元 素 进行 初始 化 和 操作 ， 需 要 特别 注意 的 是 ，TensorFlow 中 任何 操作 都 
是 在 “会 话 ” 中 进行 的 ， 因 此 它 的 基本 操作 都 要 通过 会 话 〈Session ) 来 完成 。 


sess = tf.Session() 


init = q.enqueue many(([0.1, 0.2, 0.3],)) 


sess.run(init) 





enqueue many 函数 将 上 文中 创建 的 FIFOQueue 函数 进行 了 填充 ， 因 为 q 被 设置 成 包含 3 
个 元 素 的 函数 ， 因 此 它 一 次 性 被 填充 进 3 个 数据 。 但 是 实际 上 ， 此 时 的 数据 填充 并 没有 完成 ， 
而 是 做 出 了 一 个 预备 工作 ， 真 正 的 工作 要 在 会 话 中 完成 ， 因 此 还 需要 运行 会 话 中 的 run 函数 。 
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【程序 10-1】 


import tensorflow as tf 


with tf.Session() as sess: 
q = tf.FIFOQueue (3, "float") 
init = q.enqueue many(([0.1, 0.2, 0.3],)) 
init2 = q.dequeue() 
init3 = q.enqueue(1.) 


sess.run(init) 
sess.run(init2) 
sess.run(init3) 


quelen = sess.run(q.size()) 
for i in range (quelen): 
print (sess.run (q.dequeue () )) 


在 程序 10-1 中 ， 首 先 设 定 了 一 个 “先入 先 出 ”的 队列 ， 之 后 被 填充 进入 数据 。dequeue 
函数 将 其 中 的 数据 弹出 。 此 时 为 了 能 够 让 这 个 队列 操作 完成 ， 这 步 操作 被 命名 为 ini2， 下 面 
的 init3 同样 是 在 对 话 中 完成 。 之 后 通过 对 话 操作 对 这 3 个 步骤 进行 处 理 。 

size 函数 获取 了 当前 队列 的 数据 个 数 ， 之 后 通过 一 个 for 循环 将 队列 中 的 数据 弹出 。 最 终 
打印 结果 如 下 : 


从 结果 可 以 看 到 , 第 一 次 init 的 3 个 数值 中 0.1 被 dequeue, 取而代之 的 是 enqueue 函数 进 
去 的 1 这 个 数值 。 








li 


各 dequeue 是 一 个 可 以 堵塞 队列 的 函数 ， 如 果 其 中 没有 数据 被 弹出 ， 就 会 堵塞 队列 直到 数据 
i 被 填充 之 后 被 弹出 。 








从 程序 10-1 可 以 看 到 ， 队 列 的 操作 是 在 主线 程 的 对 话 中 依次 完成 。 这 样 做 的 好 处 是 不 易 
堵塞 队列 ， 出 了 bug 容易 查找 等 。 例 如 数据 执行 入 队 操作 后 ,从 硬盘 上 输入 数据 到 内 存 中 以 供 
后 续 使 用 ， 但 是 这 样 的 操作 会 造成 数据 的 读 取 和 输入 较 慢 ， 处 理 相对 困难 。 

TensorFlow 中 提供 了 QueueRunner 函数 用 以 解决 异步 操作 问题 ， 它 可 以 创建 一 系列 的 线 
程 同时 进入 主线 程 内 进行 操作 ， 数 据 的 读 取 与 操作 是 同步 的 ， 即 主线 程 在 进行 训练 模型 的 工 
作 的 同时 将 数据 从 硬盘 读 入 。 

【程序 10-2】 


import tensorflow as tf 
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with tf.Session() as sess: 
q = tf.FIFOQueue (1000, "f10at32") 
counter = tf.Variable(0.0) 
add op = tf.assign add(counter, tf.constant (1.0)) 
enqueueData op = q.enqueue (counter) 


qr = tf.train.QueueRunner(q, enqueue ops-[add op, enqueueData op] * 2) 
sess.run(tf.global variables initializer()) 
enqueue threads = qr.create threads(sess, start-True) # 启动 入 队 线程 


for i in range(10): 
print (sess.run (q.dequeue () )) 

在 程序 10-2 中 首先 创建 了 1 个 数据 处 理 函数 ，add_op 的 操作 是 将 整数 1 三 加 到 变量 
counter 上 去 。 为 了 执行 这 个 操作 ，qr 创建 了 一 个 队列 管理 器 QueueRunner， 它 调用 了 2 个 线 
程 去 完成 此 项 任务 。create_threads 函数 用 于 启动 线程 ， 此 时 线程 已 经 开始 运行 。 

而 在 for 循 环 中 ， 主 程序 同时 也 对 队列 进行 操作 ， 即 不 停 地 将 数据 从 队列 中 弹出 ， 结 果 如 
图 10-1 所 示 。 


ERROR:tensorflow:Exception in QueueRunner: Attempted to use a closed Session. 
ERROR:tensorflow:Exception in QueueRunner: Attempted to use a closed Session. 
ERROR:tensorflow:Exception in QueueRunner: Attempted to use a closed Session. 








ERROR:tensorflow:Exception in QueueRunner: Attempted to use a closed Session. 
图 10-1 程序 10-2 执行 结果 
可 以 看 到 ， 程 序 首先 是 正常 输出 ， 但 是 在 后 半 部 分 程序 执行 时 报错 了 。 


ERROR:tensorflow:Exception in QueueRunner: Attempted to use a closed Session. 
错误 提示 为 : 队列 管理 器 企图 关闭 会 话 ， 即 循环 已 经 结束 了 ， 会 话 要 关闭 ，main 函数 已 
如 果 换 一 种 表述 形式 : 

【程序 10-3】 


import tensorflow as tf 
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q = tf.FIFOQueue (1000, "float32") 
counter = tf.Variable(0.0) 
add op = tf.assign add(counter, tf.constant (1.0)) 


enqueueData op = q.enqueue (counter) 


sess — tf.Session() 

qr = tf.train.QueueRunner(q, enqueue ops-[add op, enqueueData op] * 2) 
sess.run(tf.global variables initializer()) 

enqueue threads = qr.create threads(sess, start-True) 4 启动 入 队 线程 


for i in range(10): 
print (sess.run (q.dequeue () )) 


可 以 看 到 此 时 的 会 话 并 没有 报错 ， 但 是 程序 也 没有 结束 ， 而 是 被 挂 起 。 造 成 这 种 情况 的 
原因 是 add 操作 和 入 队 操 作 没 有 同步 ， 即 TensorFlow 在 队列 设计 时 为 了 优化 IO 系统 ， 队 列 的 
操作 一 般 使 用 批 处 理 ， 这 样 入 队 线程 没有 发 送 结束 的 信息 而 程序 主线 程 期 望 将 程序 结束 ， 因 
此 造成 线程 堵塞 从 而 程序 被 挂 起 。 








TensorFlow 中 一 般 遇 到 程序 挂 起 的 情况 指 的 是 数据 输入 与 处 理 没有 同步 ， 即 需要 数据 时 
却 没有 数据 被 输入 到 队列 中 ， 这 样 线程 就 会 被 整体 挂 起 。 而 此 时 f 也 不 会 报错 而 是 一 直 
[ 处 于 等 待 状态 。 








10.1.2 ”线程 同步 与 停止 


可 以 看 到 ，TensorFlow 中 的 会 话 是 支持 多 线程 的 ， 多 个 线程 可 以 很 方便 地 在 一 个 会 话 下 
共同 工作 ， 并 行 地 相互 执行 。 但 是 通过 程序 演示 也 看 到 ， 这 种 同步 会 造成 某 个 线程 想 要 关闭 
对 话 时 ， 对 话 被 强行 关闭 ， 而 未 完成 工作 的 线程 也 被 强行 关闭 。 

TensorFlow 为 了 解决 多 线程 的 同步 问题 ， 提 供 了 Coordinator 和 QueueRunner 函数 来 对 线 
程 进行 控制 和 协调 。 在 使 用 上 ， 这 2 个 类 必须 同时 工作 ， 共 同 协 作 来 停止 会 话 中 所 有 线程 ， 并 
向 在 等 待 所 有 工作 线程 终止 的 程序 报告 。 


【程序 10-4】 


import tensorflow as tf 


q = tf.FIFOQueue (1000, "float32") 

counter = tf.Variable(0.0) 

add op = tf.assign add(counter, tf.constant (1.0)) 
enqueueData op - q.enqueue (counter) 


sess — tf.Session() 


qr = tf.train.QueueRunner(q, enqueue ops-[add op, enqueueData op] * 2) 


155 





OpenCV+TensorFlow 深度 学 习 与 计算 机 视觉 实战 


sess.run(tf.global variables initializer()) 
enqueue threads = qr.create threads(sess, start-True) 


coord = tf.train.Coordinator() 
enqueue threads = qr.create threads(sess, coord = coord,start-True) 


for i in range(0, 10): 


print (sess.run (q.dequeue () )) 


coord.request stop() 


coord.join(enqueue threads) 


在 程序 10-4 rh, create threads 函数 添加 了 一 个 新 的 参数 : 线程 协调 器 ， 用 于 协调 线程 之 
间 的 关系 ， 启 动 线程 以 后 ， 线 程 协调 器 在 最 后 负责 对 所 有 线程 的 接受 和 处 理 ， 即 当 一 个 线程 
结束 时 ， 线 程 协调 器 会 对 所 有 的 线程 发 出 通知 ， 协 调 其 结束 工作 。 


10.1.3 ”队列 中 数据 的 读 取 


TensorFlow 支持 几 种 数据 读 取 方 式 ， 最 简单 的 数据 输入 和 读 取 方式 就 是 对 常量 的 读 取 ， 
使 用 的 是 前 面 所 介绍 的 placeholder。 但 是 这 种 数据 读 取 方式 需要 手动 传递 array 类 型 的 数据 。 
之 后 其 feed 自动 在 其 内 部 构建 出 一 个 迭代 器 对 数据 进行 运 代 。 

本 节 介 绍 通过 队列 的 形式 对 数据 进行 读 取 的 方式 .这 种 数据 读 取 方 式 节省 了 大 量 的 宛 余 操 
作 , 数据 的 读 取 端 只 需要 和 队列 打交道 , 而 不 需要 和 数据 底层 的 读 取 方式 以 及 数据 的 类 型 打 交 
道 。 从 而 避免 了 数据 的 预 处 理 等 一 些 耗费 大 量 时 间 和 精力 的 工作 。 

在 前 面 的 队列 程序 演示 中 ， 作 者 使 用 的 是 FIFOQueue 函数 ， 这 个 函数 创建 一 个 先进 先 出 
的 有 序 队 列 ， 主 要 用 于 对 数据 输入 顺序 有 要 求 的 神经 网 络 模型 ， 例 如 时 序 分 析 等 。 还 有 一 种 队 
列 的 创建 方法 是 RandomShuffleQueue 函数 ， 主 要 用 于 无 序 的 读 取 和 输出 数据 样本 。 

图 10-2 所 示 的 是 通过 队列 读 取 数据 的 一 个 整体 流程 。 首 先 由 一 个 单线 程 将 文件 名 输入 队 
列 ， 之 后 使 用 两 个 Reader 同时 从 队列 中 获取 文件 名 读 取 数 据 ，Decoder 使 用 对 应 的 文件 名 将 
数据 解码 后 堆 入 样本 队列 ， 最 后 取出 数据 样本 。 


Filename Example 
Filenames Queue Queue 


Je 


enqueue many 





图 10-2 ”队列 读 取 数据 流程 
这 里 的 步骤 如 下 : 
(1) 从 磁盘 读 取 数据 的 名 称 与 路 径 。 
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(2) 将 文件 名 堆 入 列队 尾部 。 

G) 从 队列 头 部 读 取 文件 名 并 读 取 数 据 。 
(4) Decoder 将 读 取 的 数据 解码 。 

(5) 将 数据 输入 样本 队列 ， 供 后 续 处 理 使 用 。 


10.2 CSV 文件 的 创建 与 读 取 


CSV 文件 是 最 常用 的 一 个 文件 存储 方式 。 喜 号 分 隔 值 (Comma-Separated Values, CSV, 
有 时 也 称 为 字符 分 隔 值 ， 因 为 分 隔 字符 也 可 以 不 是 逗号 ) 文件 以 纯 文 本 形式 存储 表格 数据 ( 数 
字 和 文本 ) 。 纯 文本 意味 着 该 文件 是 一 个 字符 序列 ， 不 包含 必须 像 二 进 制 数字 那样 被 解读 的 数 
据 。CSV 文件 由 任意 数目 的 记录 组 成 ， 记 录 间 以 某 种 换行 符 分 隔 ; 每 条 记录 由 字段 组 成 ， 字 
段 间 的 分 隔 符 是 其 他 字符 或 字符 串 ， 最 常见 的 是 逗号 或 制 表 符 。 通 常 , 所 有 记录 都 有 完全 相同 
的 字段 序列 。 


10.2.1 CSV 文件 的 创建 


对 于 CSV 文件 的 创建 ，Python 语言 有 较 好 的 实现 方法 ， 这 里 只 需要 按 需 求 对 其 格式 进行 
整理 即 可 。 
在 本 书 中 , TensorFlow 的 CSV 文件 读 取 主 要 用 于 对 所 需 加 载 文件 的 地 址 和 标签 进行 记录 ， 
如 图 10-3 所 示 。 
v = jpg 
image 0001.jpg 
X image. 0002.jpg 


Z image 0003jpg 
image 0004;jpg 


Z image 0005jpg 
& image 0006jpg 
& image 0007 jpg 
Z image 0008;jpg 
Z image 0009.jpg 
S image 0010jpg 





图 10-3 文件 夹 中 图 片 名 
新 建 名 为 jpg 的 文件 夹 , 其 中 有 若干 图 片 是 需要 对 其 读 取 地 址 和 标签 的 对 象 ,其 代码 如 下 : 
【程序 10-5】 


import os 

path = 'jpg' 
filenames-os.listdir (path) 
strText — "" 


with open("train list.csv", "w") as fid: 
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for a in range(len(filenames)): 
strText = pathtos.septfilenames[a] + "," + filenames[a].split(' ')[0] 
xe D 
fid.write(strText) 
fid.close() 


path 作为 文件 夹 的 路 径 被 设 定 ， 之 后 的 filenames 是 读 取 文 件 路 径 。 而 st Text 是 字符 串 ， 


供 CSV 文件 写 入 使 用 。 通 过 调用 文件 夹 内 容 的 递归 查询 ， 重 新 以 需要 的 格式 拼接 字符 串 并 重 
新 写 入 ， 其 格式 如 图 10-4 所 示 。 


jpgNVimage 0004.jpg,1 
jpgVimage 0005.jpg,1 


10-4 图 片 地 址 和 标签 





从 图 中 可 以 看 到 ,每 一 行 被 逗号 分 成 两 部 分 ， 前 面 一 部 分 是 图 片 的 地 址 ， 后 面 一 部 分 是 设 
定 的 标签 名 。 标 签名 在 本 例 中 设置 成 1， 或 者 可 以 用 图 片 名 称 的 第 一 个 单词 记录 ， 如 果 需 要 ， 
可 以 根据 需求 设 定 不 同 的 标签 。 


10.2.2 CSV 文件 的 读 取 


在 TensorFlow 使 用 CSV 文件 ， 需 要 使 用 特殊 的 CSV 读 取 。 这 通常 是 为 了 读 取 硬 盘 上 图 
片 文件 而 使 用 的 , 方便 TensorFlow 框架 在 使 用 时 能 够 一 边 读 取 图 片 一边 对 图 片 数据 进行 处 理 。 
这 样 做 的 好 处 能 够 防止 一 次 性 读 入 过 多 的 数据 造成 框架 资源 被 耗 尽 。 
在 上 一 小 节 中 设 定 了 CSV 格式 文件 ， 里 面 分 别 存 有 图 片 的 地 址 和 标签 ， 因 此 再 读 取 数 据 
时 需要 2 个 数组 分 别 存 放 读 取 的 图 片 地 址 和 标签 。 对 于 CSV 文件 中 数据 的 读 取 ， 只 需要 调用 
readlines 函数 ， 直 接 读 取 即 可 。 
image add list = [] 
image label list - [] 
with open("train list.csv") as fid: 
for image in fid.readlines(): 
image add list.append(image.strip().split(",") [0]) 
image label list.append(image.strip().split(",")[1]) 
下 面 将 读 取 的 图 片 转化 成 需要 的 格式 。 在 TensorFlow 中 ， 计 算 图 接受 的 是 一 个 张 量 ， 因 
此 需要 先 将 图 片 转化 成 可 以 被 接受 的 张 量 格式 。 代 码 如 下 : 
def get image (image path): 
return 
tf.image.convert image dtype(tf.image.decode jpeg(tf.read file(image path), 
channels-1),dtype-tf.float32) 


这 里 如 果 将 这 个 长 度 的 代码 拆 分 的 话 ， 可 以 看 到 : 
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€ tfread file(image path): 读 取 图 片 地 址 的 函数 。 
€  ifimage.decode jpeg: 对 读 取 进 来 的 图 片 解码 成 JPG 格式 ， 并 在 此 设 定 了 图 像 的 通 
道 。 需 要 注意 的 是 ， 当 channels=1 的 时 候 ， 读 取 的 图 像 为 灰 度 ， 也 是 我 们 在 后 续 使 


用 的 。 
€ tfimage.convert image dtype: 对 图 像 进行 转化 ， 将 图 像 矩 阵 转化 成 TensorFlow 需要 


的 张 量 格式 。 
完整 代码 如 下 : 
【程序 10-6】 


import tensorflow as tf 


import cv2 


image add list - [] 
image label list - [] 
with open("train list.csv") as fid: 
for image in fid.readlines(): 
image add list.append(image.strip().split(",") [0]) 
image label list.append(image.strip().split(",")[1]) 
img-tf.image.convert image dtype(tf.image.decode jpeg(tf.read file('jpg\\im 
age 0000.5pg'),channels-1) 
f,dtype-tf.float32) 
print (img) 


打印 结果 如 下 所 示 。 

Tensor("convert image:0", shape-(?, ?, 1), dtype-float32) 

可 以 看 到 这 里 生成 的 数据 格式 是 Tensor， 其 中 shape 是 属于 位 置 ， 对 于 输入 的 数据 来 说 ， 
其 shape 并 没有 制定 。 不 过 一 般 而 言 ， 使 用 的 训练 图 片 和 测试 图 片 都 是 预先 知道 大 小 的 ， 因 
此 这 里 的 shape 可 以 根据 需要 制定 。 


【程序 10-7】 
import tensorflow as tf 
import cv2 


image add list - [] 
image label list - [] 
with open("train list.csv") as fid: 
for image in fid.readlines(): 
image add list.append(image.strip().split(",")[0]) 
image label list.append(image.strip().split(",") [1]) 
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def get image(image path): 
return tf.image.convert image dtype( 
tf.image.decode jpeg( 
tf.read file(image path), channels-1), 
dtype-tf.uint8) 


img = 
tf.image.convert image dtype(tf.image.decode jpeg(tf.read file('jpgWX020.jpg'), 
channels-1),dtype-tf.float32) 


with tf.Session() as sess: 
cv21mg = sess.run(img) 
img2 = cv2.resize(cv21mg, (200,200)) 
cv2.imshow('image', img2) 
cv2.waitKey() 


程序 10-7 演示 了 如 何 将 图 片 重新 读 取出 来 ， 这 里 通过 会 话 的 run 函数 重新 获取 了 图 片 的 
和 矩阵 信息 ， 之 后 cv2 包 重 构 了 和 矩阵 大 小 并 将 其 重新 显示 。 


E7 cv2 包 的 介绍 在 前 面 已 经 做 过 详细 说 明 。 | 

















10.3 TensorFlow 文件 的 创建 与 读 取 


除了 使 用 典型 的 CSV 文件 提供 数据 的 存储 地 址 和 标签 外 ，TensorFlow 还 有 专门 的 文件 存 
储 和 读 取 格 式 : TFRecords 文件 。 这 是 TensorFlow 专门 提供 的 、 人 允许 将 任意 数据 转化 成 
TensorFlow 所 支持 的 格式 ， 使 得 相应 的 数据 集 更 容易 与 网 络 应 用 架构 相 匹 配 。 


10.3.1 TFRecords 文件 的 创建 


TFRecords 是 TensorFlow 专用 的 数据 文件 格式 ， 它 包含 了 tftrain.Example 协议 内 存 块 
(protocol buffer) ， 用 于 存储 特征 值 与 数据 内 容 。 通 过 tf.python io.TFRecordWriter 类 ， 可 以 
获取 相应 的 数据 并 将 其 填 入 到 Example 协议 内 存 块 中 ， 最 终生 成 TFRecords 文件 。 

换 句 话说 ， 一 个 tftrain.Example 包含 着 若干 数据 的 特征 (Features) ， 而 Features 中 又 包 
含 着 Feature 字典 。 从 细节 上 说 ， 任 何 一 个 Feature 中 又 包含 着 FloatList， 或 者 ByteList， 或 者 
Int64List， 这 三 种 数据 格式 之 一 。TFRecords 就 是 通过 一 个 包含 着 二 进 制 文件 的 数据 文件 ， 将 
特征 和 标签 进行 保存 以 便于 TensorFlow 读 取 。 

writer = tf.python io.TFRecordWriter (TFRecordsPath) 


for i in range(0, n): 
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* 创建 样本 example 
和 
serialized = example.SerializeToString() 
writer.write (serialized) 
writer.close() 


上 面 代 码 段 是 TFRecords 写 入 文件 的 经 典 格式 , 即 对 样本 的 序列 化 之 后 完成 写 操作 。 至 于 
TFRecords 写 入 格式 ， 可 以 直接 查看 源码 。 下 面 是 TFRecords 的 核心 部 分 : 
BytesList = reflection.GeneratedProtocolMessageType ('BytesList', 


( message.Message,), dict( 
DESCRIPTOR =  BYTESLIST, 





. module = 'tensorflow.core.example.feature_pb2' 
# @@protoc insertion point(class scope:tensorflow.BytesList) 
)) 

_sym db.RegisterMessage (BytesList) 


FloatList = reflection.GeneratedProtocolMessageType ('FloatList', 
( message.Message,), dict( 
DESCRIPTOR =  -FLOATLIST, 
. module  - 'tensorflow.core.example.feature pb2' 
* G8protoc insertion point(class scope:tensorflow.FloatList) 
) ) 
_sym db.RegisterMessage (FloatList) 


Inté4List = reflection.GeneratedProtocolMessageType ('Int64List', 
( message.Message,), dict( 
DESCRIPTOR =  INT64LIST, 
. module = 'tensorflow.core.example.feature pb2' 
# G8protoc insertion point(class scope:tensorflow.Int64List) 


) ) 
_sym db.RegisterMessage (Int64List) 


从 摘录 的 源码 中 可 以 看 到 , TFRecords 可 以 接受 3 种 数据 格式 , 分 别 为 BytesList、 FloatList 
以 及 Int64List。 


【程序 10-8】 
import tensorflow as tf 
import numpy as np 
a data = 0.834 


b data = [17] 


c data = np.array([[0,1,2], [3,4,51]) 
C — c data.astype (np.uint8) 
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c raw = c.tostring() # 转 化 成 字符 串 


example — tf.train.Example( 
features-tf.train.Features( 
feature-( 
'a': tf.train.Feature( 
float list-tf.train.FloatList(value-[a data]) + 方 括号 表示 


输入 为 list 
) ， 
'b': tf.train.Feature( 
int64 list-tf.train.Int64List(value-b data) # b data 本 身 
就 是 列表 
) ， 
'"c': tf.train.Feature( 
bytes list-tf.train.BytesList(value-[c raw]) 4c raw 被 转化 
成 byte 格式 


从 上 面 的 代码 段 可 以 看 到 ，a_data、b_data 以 及 c_data 是 3 种 不 同类 型 的 数据 。a_data 为 
float 类 型 ， 因 此 在 写 入 时 使 用 了 FloatList 格式 ，b_data 用 于 列表 的 写 入 ; 对 于 其 他 类 型 的 数 
据 ， 例 如 数组 或 者 字符 串 等 ， 需 要 统一 地 设置 成 二 进 制 的 形式 进行 写 入 。 

程序 10-9 演示 了 随机 生成 一 个 数据 并 将 其 保存 为 TFRecords 的 例子 。 


【程序 10-9】 
import tensorflow as tf 
import numpy as np 


writer = tf.python io.TFRecordWriter ("trainArray.tfrecords") 
for _ in range(100): 
randomArray = np.random.random( (1,3)) 
array raw = randomArray.tobytes() 
example = tf.train.Example (features-tf.train.Features (feature-( 
"label": tf.train.Feature(int64 list-tf.train.Int64List (value-[0])), 
'img raw': 
tf.train.Feature(bytes list-tf.train.BytesList(value-[array raw])) 
D) 
writer.write(example.SerializeToString()) 
writer.close() 


首先 生成 随机 数组 。 
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randomArray = np.random.random((1,3)) 





之 后 需要 注意 的 是 , 任何 一 个 TFRecords 能 够 保存 的 只 能 是 二 进 制 数据 ,因此 必须 有 一 个 
专门 的 步骤 将 数组 转化 成 二 进 制 形 式 。 


array raw = randomArray.tobytes() 


之 后 在 for 循环 中 ， 每 次 使 用 NumPy 的 随机 模式 生成 一 个 1 £7 3 列 的 数组 ， 将 其 转化 为 
二 进 制 后 写 入 example 中 。 


10.3.2. TFRecords 文件 的 读 取 


TFRecords 的 文件 读 取 稍 微 麻 烦 一 点 。 首 先 要 将 在 TFRecords 中 的 数据 以 输入 的 格式 读 取 
出 来 ， 我 们 在 程序 10-7 中 演示 了 写 入 3 个 不 同类 型 的 数据 到 TFRecords， 现 在 需要 将 其 读 取 
出 来 ， 具 体 实现 的 代码 段 如 下 : 


filename queue = tf.train.string input producer(["dataTest.tfrecords"], 
num epochs-None) 

reader = tf.TFRecordReader() 

.: Serialized example = reader.read(filename queue) 


features = tf.parse single example( 
serialized example, 
features-( 
'a': tf.FixedLenFeature([], tf.float32), 
'b': tf.FixedLenFeature([], tf.int64), 
'c': tf.FixedLenFeature([], tf.string) 


) 
features['a'] 


a 

b features['b'] 

c raw = features['c'] 
& 

c 


= tf.decode raw(c raw, tf.uint8) 
= tf.reshape(c, [2, 31) 
首先 定义 了 一 个 数据 队列 ， 将 文件 名 推 入 队列 中 。 队 列 根据 文件 名 读 取 数据 ，Decoder 将 
读 出 的 数据 解码 。 但 是 , 我 们 运行 此 代码 会 发 现 , 这 个 代码 段 是 无 法 执行 的 , 因为 与 刚才 的 writer 
不 同 ， 这 个 reader 是 符号 化 的 ， 只 有 在 sess 中 run 才 会 执行 。 
如 果 需 要 打印 数据 或 者 继续 执行 代码 ， 就 需要 使 用 专门 的 读 取 函数 tftrain.shuffle_batch 
来 执行 。 具 体 使 用 的 代码 段 如 下 : 
a batch, b batch, c batch = tf.train.shuffle batch([a, b, c], batch size-1, 
capacity-200, min after dequeue-100, num threads-2) 
sess — tf.Session() 


init = tf.global variables initializer() 
sess.run (init) 


tf.train.start queue runners (sess=sess) 
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a val, b val, c val = sess.run([a batch, b batch, c batch]) 
print(a val) 


print("------------------------------ ") 
print(b val) 
print ("-----------------------------—' ") 


print(c val) 


tf.train.shuffle batch 函数 用 于 从 TFRecords 中 读 取 数据 ， 并 且 保 证 每 次 读 取出 来 的 数据 内 
容 与 标签 同步 ， 不 会 造成 不 匹配 的 现象 。 其 返回 值 就 是 RandomShuffleQueue.dequeue_many0)， 
即 从 队列 中 弹出 若干 个 元 素 并 在 队列 中 进行 删除 操作 。 

更 进一步 的 解释 请 参考 10.1.3 节 中 图 10-2 所 示 的 内 容 。 在 前 面 已 经 说 了 ，batch 进行 读 取 
的 时 候 ，TensorFlow 新 建 一 个 队列 queues 和 QueueRunners。 而 tftrain.shuffle_batch 函数 的 具 
体 用 处 就 是 构建 了 一 个 新 的 读 取 队列 , 不 断 地 把 单个 元 素 送 入 到 队列 中 。 为 了 保证 队列 不 陷入 
停滞 状态 ， 我 们 通过 QueueRunners 启动 了 一 个 专门 的 线程 来 完成 。 

当 队 列 中 的 个 数 达 到 batch size 和 min after dequeue 之 和 后 ， 队 列 会 随机 将 batch size 个 
元 素 弹 出 。 事实 上 ， 其 返回 值 就 是 RandomShuffleQueue.dequeue_many 函数 的 返回 值 。 可 以 认 
J, tftrain.shuffle batch 函数 的 功能 就 是 将 解码 完毕 的 样本 加 入 一 个 队列 中 ， 按 需要 弹出 一 个 
batch_size 数目 的 样本 。 

可 能 有 读者 注意 到 ， 在 会 话 (sess〉 正 式 启动 之 前 ， 有 一 句 启动 线程 的 代码 : 


tf.train.start queue runners(sess=sess) 


这 个 函数 的 作用 就 是 在 会 话 启动 前 ， 需 要 让 TensorFlow 知道 哪些 线程 要 启动 ， 否 则 的 话 
有 可 能 造成 队列 被 挂 起 ， 从 而 堵塞 TensorFlow 框架 的 运行 。 这 个 调用 在 会 话 执行 前 就 已 经 开 
始 运 行 , 能 够 自动 地 启动 框架 内 的 线程 对 队列 进行 填写 , 以 便 队 列 在 会 话 真正 进行 输出 的 时 候 
能 够 有 数据 输出 ， 否 则 会 造成 大 量 的 错误 。 


10.3.3 ”图 片 文件 的 创建 与 读 取 
首先 是 对 文件 位 置 的 确定 ， 如 图 10-5 所 示 ， 我 们 设置 了 加 载 图 片 数据 目录 。 


Y Bajpg 
v $001 
€ image_0000jpg 
图 image_0001jpg 
€ image_0002jpg 
Z image 0003;jpg 
X image 0004.jpg 


* image 0005.jpg 
v i002 


S image 0006.jpg 
* image 0007.jpg 
X image 0008jpg 
S image 0009jpg 
= image 0010jpg 


图 10-5 图 片 加 载 目录 
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可 以 看 到 ， 数 据 图 片 被 归 类 到 不 同 的 图 片 目录 中 ， 这 也 是 图 片 分 类 的 常用 手段 。 
程序 10-10 演示 了 读 取 硬盘 上 图 片 文件 将 其 保存 为 TFRecords 的 例子 ， 在 这 个 例子 中 , 使 
用 每 个 图 片 的 文件 名 作为 标签 ， 这 也 是 文件 处 理 的 常用 手段 之 一 。 


【程序 10-10】 
import os 
import tensorflow as tf 
from PIL import Image 


path = "jpg" 
filenames-os.listdir (path) 


writer = tf.python io.TFRecordWriter ("train.tfrecords") 


for name in os.listdir (path): 
class path = path + os.sep + name 
for img name in os.listdir(class path): 
img path = class path*os.sep*img name 


img Image.open(img path) 
img = img.resize((500,500)) 
img raw = img.tobytes() 
example = tf.train.Example(features-tf.train.Features(feature-( 
"label": 
tf.train.Feature(int64 list-tf.train.Int64List (value-[name])), 
'image': 
tf.train.Feature(bytes list-tf.train.BytesList(value-[img raw])) 
n) 


writer.write(example.SerializeToString()) 


程序 10-10 首先 定义 了 需要 导入 的 包 和 图 片 存储 的 路 径 : 


import os 

import tensorflow as tf 
from PIL import Image 
path = "jpg" 
filenames-os.listdir (path) 


writer = tf.python io.TFRecordWriter ("train.tfrecords") 

之 后 的 一 个 for 循 环 , 从 文件 夹 中 取出 下 一 层 的 文件 夹 名 和 每 个 文件 夹 中 的 图 片 文件 名 称 ， 
之 后 将 图 片 文件 取出 改变 其 矩阵 大 小 , 并 以 字符 串 的 形式 进行 存储 。 之 后 的 example 分 别 以 图 
片 所 属 的 文件 夹 名 称 和 图 片 本 身 作 为 标签 和 特征 写 入 到 TFRecords 中 进行 存储 。 

至 于 在 TFRecords 文件 中 ， 同 样 需 要 使 用 TFRecordReader， 具 体 程序 见 程序 10-11。 


【程序 10-11】 


import tensorflow as tf 


165 





OpenCV+TensorFlow 深度 学 习 与 计算 机 视觉 实战 


166 


import cv2 


filename - "train.tfrecords" 


filename queue = tf.train.string input producer([filename]) 


reader = tf.TFRecordReader() 
_, Serialized example = reader.read(filename queue)  # 返 回 文件 名 和 文件 
features = tf.parse_single_example (serialized example, 


img 
img 


img 


features-( 


n 


label 


'label': tf.FixedLenFeature([], tf.int64), 


'image' : tf.FixedLenFeature([], tf.string), 


tf.decode raw(features['image'], tf.uint8) 


tf.reshape(img, [300, 300,3]) 


tf.cast(img, tf.float32) * (1. / 128) - 0.5 
= tf.cast(features['label'], tf.int32) 


程序 10-11 中 首先 定义 了 TFRecords 的 文件 名 ， 之 后 TFRecordReader 中 的 read 函数 将 读 
取 文 件 , 之 后 通过 特征 名 和 标签 名 进行 解析 。 这 里 需要 注意 的 是 ， 因为 图 片 在 存储 时 是 以 字符 
串 形 式 存储 的 矩阵 ,因此 解析 时 需要 以 字符 串 格式 进行 解析 。 之 后 重新 调整 解析 后 的 字符 串 格 
式 和 维度 ， 重 新 生成 图 片 文件 。 

此 时 生成 的 img 是 以 张 量 的 形式 输出 ， 如 果 需 要 查阅 最 终生 成 的 图 片 ， 相 应 的 程序 见 程 
序 10-12 所 示 。 


【程序 10-12】 


import tensorflow as tf 





import cv2 


filename - "train.tfrecords" 


filename queue - tf.train.string input producer([filename]) 


reader = tf.TFRecordReader() 


_, serialized example = reader.read(filename queue) # 返 回 文 件 名 和 文件 


features = tf.parse single example(serialized example, 


H 


features={ 


'"label': tf.FixedLenFeature([], tf.int64), 
'image' : tf.FixedLenFeature([], tf.string), 


tf.decode raw(features['image'], tf.uint8) 
tf.reshape(img, [300, 300,3]) 
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sess = tf.Session() 


init = tf.global variables initializer() 


sess.run (init) 


threads = tf.train.start queue runners (sess-sess) 


img = tf.cast(img, tf.float32) * (1. / 128) = 0.5 
label = tf.cast(features['label'], tf.int32) 


imgcv2 = sess.run (img) 
cv2.imshow("cool",imgcv2) 
cv2.waitKey() 


FS S CIR Fe Fr BORD Jes ^E JL Je — est, D Ut E38 et CERE RUE DI PLE ERE o 
前 面 已 经 说 过 ， 数 据 其 实 是 被 直接 填充 到 队列 里 的 ， 因 此 必须 使 用 tf.train.start queue runners 
先 启 动 队列 ， 之 后 通过 会 话 的 run 函数 正式 执行 图 片 格式 的 解析 。 

cv2 是 对 图 片 修正 和 显示 的 包 ， 在 此 可 以 用 来 对 图 片 进行 显示 。 

可 能 有 读者 注意 到 , 在 程序 10-12 中 ,只 有 第 一 张 图 片 被 显示 ,这 是 因为 TFRecordReader 
在 每 次 读 取 时 ， 总 是 仅仅 通过 Iterator 的 方式 读 取 当 前 队列 的 第 一 个 元 素 ， 其 他 元 素 在 队列 中 

forserialized example intf.python io.tf record iterator("train.tfrecords"): 


example = tf.train.Example() 


example.ParseFromString(serialized example) 


image = example.features.feature['image'].bytes list.value 
label = example.features.feature['label'].int64 list.value 
print image, label 


上 面 的 代码 段 通过 Iterator 对 train.tfrecords 进行 迭代 ,每 次 取出 其 中 的 一 个 元 素 解析 后 将 
其 特征 和 标签 输出 。 
为 了 增加 读 取 的 通用 性 , 可 以 将 程序 10-11 改 成 专门 的 读 取 相关 数据 的 函数 , 其 形式 如 下 : 


def read and decode (filename): 


filename queue - tf.train.string input producer([filename]) 


reader = tf.TFRecordReader() 
_, serialized example = reader.read(filename queue) 
features = tf.parse single example (serialized example, 
features-( 
'"label': tf.FixedLenFeature([], tf.int64), 
'image' : tf.FixedLenFeature([], tf.string), 
n 
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img = tf.decode raw(features['image'], tf.uint8) 
tf.reshape(img, [300, 300,3]) 


E 
LU 


img tf-cast(img, tr.f1oat32) * (1: / 128) = 0.5 
label = tf.cast(features['label'], tf.int32) 


M 


return img,label 


如 果 需 要 将 数据 取出 供 图 使 用 , 可 以 使 用 前 文 所 介绍 的 tftrain.shuffle batch 函数 。 这 是 
要 详细 介绍 一 下 其 中 的 参数 : 


shuffle batch(tensors, batch size, capacity, min after dequeue.. 
shuffle batch 中 主要 有 4 个 参数 : 


€ tensors: 输入 的 文件 张 量 ， 即 由 TFRecords 解析 获得 的 张 量 文件 。 

€ batch size: 每 次 弹出 的 元 素数 目 。 

© capacity: 队列 能 够 容纳 的 最 大 元 素 个 数 。 

© min after dequeue: 指出 队列 操作 后 还 可 以 供 随机 采样 出 批量 数据 的 样本 池 大 小 。 显 
然 ，capacity 要 大 于 min after dequeue， 官 网 推荐 capacity 大 小 为 min after dequeue 
+ (num threads + a small safety margin) * batch_size， 其 中 参数 num threads 表示 所 用 





n 





线程 数目 。 
读 取 数据 的 程序 段 如 下 所 示 。 
img batch,label batch = tf.train.shuffle batch([img,label],batch size-3, 


capacity-10, 
min after dequeue-6) 


init = tf.global variables initializer() 


sess — tf.Session() 
sess.run (init) 
threads = tf.train.start_queue_runners (sess=sess) 
for in range (10): 
val = sess.run (img batch) 
label = sess.run(label batch) 


可 以 看 到 ， 这 里 同样 是 使 用 了 train.start_queue_runners 函数 去 启动 TensorFlow 中 所 有 队 


列 , 因为 生成 的 img batch, label batch 在 队列 中 , 所 以 通过 一 个 for 循环 不 停 地 从 中 获取 数据 。 
完整 代码 如 程序 10-13 所 示 。 


【程序 10-13】 


import tensorflow as tf 


import cv2 
import Test2 
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filename — "train.tfrecords" 
img,label — Test2.read and decode (filename) 


img batch,label batch = tf.train.shuffle batch([img,label],batch size-1, 
capacity-10, 
min after dequeue-1) 


init = tf.global variables initializer() 

sess = tf.Session() 

sess.run (init) 

threads = tf.train.start queue runners (sess-sess) 


for in range(10): 
val = sess.run(img batch) 
label = sess.run(label batch) 
val.resize((300,300,3)) 
cv2.imshow ("cool",val) 
cv2.waitKey() 
print (label) 
这 里 通过 一 个 for 循环 ， 将 图 片 不 停 地 读 出 ， 之 后 cv2 将 其 重 构 为 可 以 显示 的 图 片 文件 ， 
最 后 打印 出 图 片 标签 
当然 了 ， 一 般 情 况 下 不 需要 直接 读 取 img batch. label batch 中 的 内 容 ， 而 只 需 将 其 传递 
给 需要 进行 递归 的 数据 即 可 。 


10.4 本 章 小 结 


TensorFlow 数据 的 生成 与 读 取 是 非常 重要 的 ， 但 是 由 于 很 多 原因 ， 它 不 被 重视 ， 因 此 在 
TensorFlow 的 学 习 过 程 中 ， 大 多 数 读者 往往 只 会 使 用 给 定 的 、 制 作 好 的 数据 集 ， 而 不 会 使 用 
自己 的 数据 集 去 训练 框架 。 

本 章 全 面 介绍 TensorFlow 数据 的 生成 与 读 取 ， 详 细 介绍 了 TensorFlow 队列 的 生成 ， 讲 解 
了 在 文件 传输 过 程 中 由 于 线程 的 异步 会 造成 主线 程 的 崩溃 和 造成 队列 堵塞 的 原因 : 还 讲解 了 
CSV 文件 的 创建 与 读 取 ， 这 是 通过 传统 的 方式 对 硬盘 上 信息 进行 提取 和 训练 的 常用 方式 。 
TFRecords 是 TensorFlow 专用 的 读 写 方式 ， 它 通过 二 进 制 的 形式 把 数据 写 入 文件 中 ， 使 之 可 
REKRAI RHET ER. 

每 一 种 数据 的 读 写 方式 都 有 其 优 缺点 ，CSV 文件 的 读 写 主 要 是 经 过 文件 的 转化 和 重 构 ， 
这 在 系统 资源 不 是 很 强 的 时 候 训 练 开 销 较 大 、 速 度 较 慢 ; 而 TFRecords 主要 的 问题 是 在 生成 过 
程 中 会 产生 大 量 的 宛 余 文件 ， 大 大 占用 了 机 器 的 内 存 空 间 。 因此, 在 实际 应 用 中 究竟 使 用 哪 种 
数据 生成 和 读 取 方 式 ， 还 需 根据 实际 情况 进行 取舍 。 
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sus 
< 郑 积 神经 网 络 的 诛 理 * 


本 章 开 始 将 进入 本 书 最 重要 的 部 分 ， 卷 积 神经 网 络 的 介绍 。 

卷 积 神经 网 络 是 从 信号 处 理 衍生 过 来 的 一 种 对 数字 信号 处 理 的 方式 , 发 展 到 图 像 信号 处 理 
E, 演变 成 一 种 专门 用 来 处 理 具有 和 矩阵 特征 的 网 络 结构 处 理 方式 。 卷 积 神经 网 络 在 很 多 应 用 上 
都 有 独特 的 优势 ， 甚 至 可 以 说 是 无 可 比拟 的 ， 例 如 音频 处 理 和 图 像 处 理 。 

本 章 将 会 介绍 什么 是 卷 积 神经 网 络 , 会 谈 到 卷 积 实际 上 是 一 种 不 太 复 杂 的 数学 运算 , 即 卷 
积 是 一 种 特殊 的 线性 运算 形式 。 之 后 会 介绍 “ 池 化 ”这 一 概念 ， 它 是 卷 积 神经 网 络 中 必 不 可 少 
的 操作 。 还 有 为 了 消除 过 拟 合 , 会 介绍 drop-out 这 一 常用 的 方法 。 这 些 概念 和 方法 是 为 了 让 卷 

















卷 积 运算 基本 概念 


在 数字 图 像 处 理 中 有 一 种 最 为 基本 的 处 理 方法 , 即 线性 滤波 。 将 待 处 理 的 二 维 数字 看 作 一 
个 大 型 矩阵 ,图像 中 的 每 个 像素 可 以 看 作 和 矩阵 中 的 每 个 元 素 , 像素 的 大 小 就 是 矩阵 中 的 元 素 值 。 

这 里 使 用 的 滤波 工具 是 另 一 个 小 型 矩阵 , 这 个 矩阵 被 称 为 卷 积 核 。 卷 积 核 的 大 小 远 远 小 于 
图 像 矩 阵 ， 具 体 的 计算 方式 就 是 对 于 图 像 大 矩阵 中 的 每 个 像素 , 计算 其 周围 的 像素 和 卷 积 核对 
应 位 置 的 乘积 ， 之 后 将 结果 相 加 ， 最 终 得 到 的 终 值 就 是 该 像素 的 值 ， 这 样 就 完成 了 一 次 卷 积 。 
最 简单 的 图 像 卷 积 方式 如 图 11-1 所 示 。 





图 11-1 卷 积 运算 


第 11 章 ” 卷 积 神经 网 络 的 原理 


本 节 将 详细 介绍 卷 积 的 定义 、 运 算 以 及 一 些 细节 调整 的 方法 , 这 些 都 是 卷 积 使 用 中 必 不 可 
少 的 内 容 。 


11.1.1 ERAR 


前 面 已 经 说 过 了 , BRK EJ RTT UIS EAE RERET RRA. JI TEF 
读者 理解 ， 从 一 个 例子 开始 介绍 。 

假设 需要 对 高 速 公路 上 的 跑车 进行 位 置 追 踪 , 这 也 是 卷 积 神经 网 络 图 像 处 理 的 一 个 非常 重 
要 的 应 用 。 摄 像 头 接收 到 的 信号 被 计算 为 x(t)， 表 示 跑车 在 路 上 时 刻 t 的 位 置 。 

但 是 往往 实际 上 的 处 理 没 这 么 简单 , 因为 在 自然 界 无 时 无 刻 存 在 着 各 种 影响 , 比如 摄像 头 
传感器 的 滞后 。 因此 为 了 得 到 跑车 位 置 的 实时 数据 , 采用 的 方法 就 是 对 测量 结果 进行 均值 化 处 
理 。 但 是 对 于 运动 中 的 目标 ， 时 间 越 久 的 位 置 则 越 不 可 靠 ， 而 时 间 离 计算 时 越 短 的 位 置 则 与 真 
实 值 的 相关 性 越 高 。 因 此 可 以 对 不 同 的 时 间 段 赋予 不 同 的 权重 ， 即 通过 一 个 权 值 定义 来 计算 。 
这 个 可 以 表示 为 : 








s(t) = | x(a)o(t-a)da 
这 种 运算 方式 被 称 为 卷 积 运 算 ， 换 个 符号 表示 为 : 


SC = (x* oy) 

在 卷 积 公式 中 ， 第 一 个 参数 x 被 称 为 “输入 数据 ”， 而 第 二 个 参数 w 被 称 为 “ 核 函 数 ”， 
S(t) 是 输出 ， 即 特征 映射 。 

数字 图 像 处 理 卷 积 运算 主要 有 两 种 思维 ， 即 “ 稀 朴 矩阵 ”与 “参数 共享 ”。 

首先 对 于 稀 政 矩阵 来 说 ， 卷 积 网 络 具有 稀疏 性 ， 即 卷 积 核 的 大 小 远 远 小 于 输入 数据 矩阵 
的 大 小 。 例 如 当 输入 一 个 图 片 信息 时 ， 数 据 的 大 小 可 能 为 上 万 的 结构 ， 但 是 使 用 的 卷 积 核 却 
只 有 几 十 ， 这 样 能 够 在 计算 后 获取 更 少 的 参数 特征 ， 极 大 地 减少 了 后 续 的 计算 量 。 

参数 共享 指 的 是 在 特征 提取 过 程 中 ， 一 个 模型 在 多 个 参数 之 中 使 用 相同 的 参数 ， 在 传统 
的 神经 网 络 中 ， 每 个 权重 只 对 其 连接 的 输入 输出 起 作用 ， 当 其 连接 的 输入 输出 元 素 结束 后 就 
不 会 再 用 到 。 参 数 共享 指 的 是 在 卷 积 神经 网 络 中 , 核 的 每 一 个 元 素 都 被 用 在 输入 的 每 一 个 位 置 
上 ， 在 计算 过 程 中 只 需 学 习 一 个 参数 集合 就 能 把 这 个 参数 应 用 到 所 有 的 图 片 元 素 中 。 


【程序 11-1】 
import struct 
import matplotlib.pyplot as plt 
import numpy as np 
dateMat = np.ones((7,7)) 


kernel = np.array([[2,1,1], [3,0,1], [1,1,0]]) 


def convolve (dateMat, kernel): 
m,n = dateMat.shape 
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km,kn = kernel.shape 
newMat = np.ones(((m - km + 1), (n - kn + 1))) 
tempMat — np.ones(((km), (kn))) 
for row in range(m - km + 1): 
for col in range(n — kn + 1): 
for m k in range (km): 
for n k in range (kn): 
tempMat[m k,n k] = dateMat[(row + m k),(col + n k)] * 
kernel[m k,n k] 
newMat[row,col] = np.sum(tempMat) 


return newMat 


程序 11-1 使 用 Python 实现 了 卷 积 操作 ， 在 这 里 由 卷 积 核 从 左 到 右 、 由 上 到 下 进行 卷 积 计 
算 ， 最 后 返回 新 的 矩阵 。 





11.1.2. TensorFlow 中 卷 积 函数 实现 详解 


前 面 章节 中 通过 Python 实现 了 卷 积 的 计算 ，TensorFlow 为 了 框架 计算 的 迅捷 ， 同 样 也 使 
用 了 专门 的 函数 作为 卷 积 计算 函数 ， 用 法 如 下 。 

tf.nn.conv2d(input, filter, strides, padding, use cudnn on gpu-None, 
name-None) 

这 是 搭建 卷 积 神经 网 络 最 为 核心 的 函数 之 一 非常 重要 。 这 个 函数 核心 的 参数 有 5 个 ， 解 
释 如 下 : 


€ input: 指 需要 做 卷 积 的 输入 图 像 ， 它 要 求 是 一 个 Tensor， 具 有 [batch, in height, 
in width, in_channels] 这 样 的 shape， 具 体 含义 是 [训练 时 一 个 batch 的 图 片 数量 、 图 片 
高 度 、 图 片 宽度 、 图 像 通道 数 ]， 注 意 这 是 一 个 四 维 的 Tensor， 要 求 的 类 型 为 float32 
或 者 float64。 

€ filte: 相当 于 CNN 中 的 卷 积 核 ， 它 要 求 是 一 个 Tensor， 具 有 [filter height, 
filter width, in channels, out channels] 这 样 的 shape， 具 体 含义 是 [ 卷 积 核 的 高 度 、 卷 
积 核 的 宽度 、 输 入 图 像 通道 数 、 输 出 图 像 通道 数 ]， 要 求 的 类 型 与 参数 input 相同 有 
一 个 地 方 需要 注意 ， 第 三 维 in channels， 就 是 参数 input 的 第 四 维 。 

€ strides: 卷 积 时 在 图 像 每 一 维 的 步 长 ， 这 是 一 个 一 维 的 向 量 ， 第 一 维和 第 四 维 默认 
为 1， 而 第 三 维和 第 四 维 分 别 是 平行 和 竖 直 滑行 的 步 进 长 度 。 

€ padding: string 类 型 的 量 ， 只 能 是 SAME, VALD 其 中 之 一 ， 这 个 值 决定 了 不 同 的 
A A. 

€ use cudnn on gpu: bool 类型， 是 否 使 用 cudnn 加 速 ， 默 认为 true。 

对 于 卷 积 函数 的 具体 使 用 ， 我 们 看 一 个 例子 。 假 设 输入 一 张 单 通道 大 小 为 3X3 的 图 片 ， 

使 用 的 shape 为 [1,3,3,1]， 此 时 使 用 一 个 [1,1,1,1] 大 小 的 卷 积 核对 其 操作 ， 程 序 如 下 : 
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【程序 11-2】 


import tensorflow as tf 


input = tf.Variable(tf.random normal([1, 3, 3, 1])) 
filter = tf.Variable(tf.ones([1, 1, 1, 1])) 


init = tf.global variables initializer() 
with tf.Session() as sess: 
sess.run (init) 
conv2d - tf.nn.conv2d(input, filter, strides-[1, 1, 1, 1], padding-'VALID') 


print (sess .run (conv2d)) 
程序 11-2 展示 了 使 用 一 个 卷 积 对 和 矩阵 进行 处 理 的 例子 ， 最 后 得 到 一 个 [3,3] 大 小 的 矩阵 。 


[[[[-1.99257362] 
[-1.18453205] 
[-1.25313473]] 


[[ 0.68782878] 
[-0.96720856] 
[ 1.76341283]] 


[[-0.9811877 ] 
[ 0.41607445] 
[-0.32765821]]]] 


若 将 图 片 蔡 换 成 一 张 3X3 大 小 的 5 通道 图 像 ， 则 需要 使 用 的 卷 积 核 为 [1,1,5,1]， 得 到 的 结 
果 仍然 是 一 个 [3,3] 大 小 的 矩阵 。 








m 这 里 请 读者 自行 修改 输入 输出 参数 进行 验证 。 | 








下 面 对 图 片 和 卷 积 核 做 一 个 修改 ， 令 其 为 3X3 的 卷 积 核 ， 图 片 被 设置 成 5X5 的 5 通道 ， 
步 长 为 1， 输 出 3X3 的 特征 值 。 


【程序 11-3】 


import tensorflow as tf 


input = tf.Variable(tf.random normal([1, 5, 5, 5])) 
filter = tf.Variable(tf.ones([3, 3, 5, 11)) 


init = tf.global variables initializer() 


with tf.Session() as sess: 
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sess.run (init) 
conv2d = tf.nn.conv2d(input, filter, strides-[1, 1, 1, 1], padding-'VALID') 
print (sess .run (conv2d)) 


最 终结 果 如 下 : 


[[[[ 4.83575153] 
[ 4.83984232] 
[-2.31448555]] 


[[-0.54077381] 
[-3.1328001 ] 
[-9.14840126]] 


[[ 0.60134232] 
[ 1.24828339] 
[-7.26786995]]]] 


从 结果 上 看 ， 生 成 了 一 个 [3.3] 大 小 的 矩阵 ， 这 是 由 于 卷 积 在 工作 时 ， 边 缘 被 处 理 消 失 ， 
因此 生成 的 图 像 小 于 原 有 的 图 像 。 

但 是 有 时 候 需要 生成 的 卷 积 结果 和 原 输入 矩阵 的 大 小 一 致 ， 就 需要 将 参数 padding 的 值 设 
为 VALID， 当 其 为 SAME 时 ， 表 示 图 像 边 缘 将 由 一 圈 0 补 齐 ， 使 得 卷 积 后 的 图 像 大 小 和 输入 
大 小 一 致 。 





OxXXXXXXXXXO 


00000000000 


可 以 看 到 ， 上 面 的 x 是 图 片 的 矩阵 信息 ， 而 外 面 一 圈 是 补 齐 的 0， 这 里 0 在 卷 积 处 理 时 对 
最 终结 果 没 有 任何 影响 。 


【程序 11-4】 


import tensorflow as tf 


input = tf.Variable(tf.random normal([1, 5, 5, 5])) 
filter = tf.Variable(tf.ones([3, 3, 5, 1])) 


init = tf.global variables initializer() 


with tf.Session() as sess: 
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sess.run (init) 
conv2d = tf.nn.conv2d(input, filter, strides-[1, 1, 1, 1], padding-'SAME') 


print (sess.run (conv2d)) 
在 这 里 可 以 看 到 ， 补 全 的 命令 padding 被 设置 成 SAME， 生 成 的 结果 如 下 : 


[[[[ 2.36198759] 

[ 1.52454972] 
[ -5.73274755] 
[ 
[ 





-7.70868206] 
-6.87124348]] 


6.64904451] 
5.73708153] 
-0.6689378 ] 
-7.82620192] 
-6.9142375 ]] 


9.22388363] 

5.45048809] 
-2.09295011] 
-9:17917238] 
-5.40637684]] 


8.83816242] 

9.20834255] 
13.31070805] 
11.62901688] 
11.25883579]] 


4.55110455] 
4.99581099] 
8.24689674] 
11.7465353 ] 
11.30182838]1]] 


从 结果 上 可 以 看 到 ， 这 里 生成 的 是 一 个 [5.5] 大 小 的 矩阵 ， 因 为 在 计算 时 原始 图 片 用 0 在 
外 面 一 圈 补 齐 ， 因 此 可 以 看 到 最 终生 成 的 矩阵 是 一 个 和 输入 [5.5] 大 小 一 致 的 矩阵 。 

对 于 卷 积 核 来 说 ， 上 面 的 例子 中 卷 积 核 的 步 长 为 1。 而 当 步 长 不 为 1 的 时 候 ， 即 卷 积 核 并 
不 是 逐一 滑行 的 计算 ， 其 程序 如 下 : 

【程序 11-5】 


import tensorflow as tf 
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input = tf.Variable(tf.random normal([1，5，5，5])) 
filter = tf.Variable(tf.ones([3，3，5，1])) 


init = tf.global variables initializer() 


with tf.Session() as sess: 
sess.run (init) 
conv2d - tf.nn.conv2d(input, filter, strides-[1, 2, 2, 1], padding-'SAME') 
print (sess.run (conv2d)) 
最 后 说 明 一 下 ， 这 里 每 次 输入 的 是 一 张 图 片 ， 从 前 面 的 大 部 分 例子 中 也 可 以 看 到 ， 对 于 
数据 输入 来 说 ， 有 时 候 批量 的 数据 输入 对 计算 来 说 更 加 有 效率 ， 因 此 在 卷 积 运算 函数 中 也 可 
以 对 数据 进行 批量 输入 ， 其 代码 如 下 : 


input = tf.Variable(tf.random normal([n, 5, 5, 5])) 


这 里 n 是 输入 图 片 的 数量 。 具 体 请 读者 自行 修改 代码 打印 验证 。 


11.1.3 ”使 用 卷 积 函 数 对 图 像 感 兴趣 区 域 进行 标注 


图 像 感 兴趣 区 域 是 指 图 像 内 部 的 一 个 子 区 域 由 计算 机 自动 进行 标注 的 方式 ,在 实际 使 用 中 
常用 不 同 的 卷 积 核 进行 标注 。 上 一 小 节 介绍 了 TensorFlow 中 卷 积 函数 的 使 用 ， 本 小 节 将 使 用 
它 对 图 像 感 兴趣 的 区 域 进 行 自 动 提 取 。 


【程序 11-6】 
import tensorflow as tf 
import cv2 
import numpy as np 





img cv2.imread("lena.jpg") 
img np.array (img, dtype=np.float32) 
X image=tf.reshape (img, [1, 512,512,3]) 


filter = tf.Variable(tf.ones([7, 7, 3, 1])) 


init = tf.global variables initializer() 
with tf.Session() as sess: 


sess.run(init) 
res = tf.nn.conv2d(x image, filter, strides-[1, 2, 2, 1], padding-'SAME') 


res image = sess.run(tf.reshape (res, [256,256]))/128 + 1 


cv2.imshow("lena",res image.astype('uint8')) 
cv2.waitKey() 


程序 11-6 是 采用 了 [9.9] 大 小 的 矩阵 进行 卷 积 运算 的 代码 ， 其 结果 如 图 11-2 所 示 。 
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从 图 像 结果 可 以 看 到 ， 使 用 了 [7,7] 大 小 的 卷 积 核 后 ， 生 成 的 图 片 已 经 有 了 边缘 特征 ， 此 
时 如 果 加 大 卷 积 核 的 大 小 ， 把 它 调整 为 [11,11]， 代 码 如 下 : 


【程序 11-7】 
import tensorflow as tf 
import cv2 
import numpy as np 


img = cv2.imread("lena.jpg") 
img - np.array(img,dtype-np.float32) 
X image-tf.reshape (img, [1,512,512,3]) 


filter = tf.Variable(tf.ones([11, 11, 3, 1])) 


init = tf.global variables initializer() 
with tf.Session() as sess: 


sess.run(init) 
res = tf.nn.conv2d(x image, filter, strides-[1, 2, 2, 1], padding-'SAME') 
res image = sess.run(tf.reshape (res, [256,256]))/128 + 1 


cv2.imshow("lena",res image.astype('uint8')) 
cv2.waitKey() 


生成 的 结果 如 图 11-3 所 示 。 





113 ” 增 大 卷 积 核 卷 积 处 理 的 图 像 结果 
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此 时 的 区 域 特征 更 加 明显 ， 但 是 由 于 卷 积 增 大 得 过 于 强烈 ， 图 片 的 边缘 检测 已 经 超过 所 
需要 的 程度 。 


11.1.4” 池 化 运算 


在 通过 卷 积 获 得 了 特征 (features) 之 后 ， 下 一 步 希 望 利用 这 些 特 征 去 做 分 类 。 理 论 上 讲 ， 
人 们 可 以 使 用 所 有 提取 得 到 的 特征 去 训练 分 类 器 ， 例 如 softmax 分 类 器 ， 但 这 样 做 面临 计算 
量 的 挑战 。 例 如 : 对 于 一 个 96X96 像素 的 图 像 ， 假 设 我 们 已 经 学 习 得 到 了 400 个 定义 在 8X 
8 输入 上 的 特征 ， 每 一 个 特征 和 图 像 卷 积 都 会 得 到 一 个 06- 8+ 1)* (96 一 8+1)=7921 维 的 
卷 积 特征 ， 由 于 有 400 个 特征 ， 所 以 每 个 样 例 example) 都 会 得 到 一 个 7921*400 = 3,168,400 
维 的 卷 积 特征 向 量 。 学 习 一 个 拥有 超过 3 百 万 特征 输入 的 分 类 器 十 分 不 便 ， 并 且 容 易 出 现 过 
拟 合 Cover-fitting) 。 

这 个 问题 的 产生 是 由 于 卷 积 后 的 特征 图 像 具 有 一 种 “静态 性 ”的 属性 ， 这 也 就 意味 着 在 
一 个 图 像 区 域 有 用 的 特征 极 有 可 能 在 另 一 个 区 域 也 同样 适用 。 因 此 ， 为 了 描述 大 的 图 像 ， 一 
个 很 自然 的 想法 就 是 对 不 同位 置 的 特征 进行 聚合 统计 ， 例 如 ， 特 征 提 取 可 以 计算 图 像 一 个 区 
域 上 的 某 个 特定 特征 的 平均 值 (或 最 大 值 ) 。 这 些 概要 统计 特征 不 仅 具有 低 得 多 的 维度 ( 相 比 
使 用 所 有 提取 得 到 的 特征 ) ， 同 时 还 会 改善 结果 (不 容易 过 拟 合 ) 。 这 种 聚合 的 操作 就 叫 作 池 
化 Cpooling) ， 有 时 也 称 为 平均 池 化 或 者 最 大 池 化 〈 取 决 于 计算 池 化 的 方法 ) 。 

如 果 选 择 图 像 中 的 连续 范围 作为 池 化 区 域 ， 并 且 只 是 池 化 相同 (重复 ) 的 隐藏 单元 产生 的 
特征 ， 那 么 这 些 池 化 单元 就 具有 平移 不 变性 Ctranslation invariant) 。 这 就 意味 着 即使 图 像 经 
历 了 一 个 小 的 平移 之 后 ， 依 然 会 产生 相同 的 〈 池 化 的 ) 特征 。 在 很 多 任务 中 (例如 物体 检测 、 

音 识 别 ) ， 我 们 都 更 希望 得 到 具有 平移 不 变性 的 特征 ， 因 为 即使 图 像 经 过 了 平移 ， 样 例 (图 
像 ) 的 标记 仍然 保持 不 变 。 
TensorFlow 中 池 化 运算 的 函数 如 下 : 


tf.nn.max pool(value, ksize, strides, padding, name=None) 
参数 是 4 个 ， 和 卷 积 函数 很 类 似 ， 效 果 如 图 11-4 所 示 。 


€ value: 需要 池 化 的 输入 ， 一 般 池 化 层 接 在 卷 积 层 后 面 ， 所 以 输入 通常 是 feature 
map， 依 然 是 [batch, height, width, channels] 这 样 的 shape。 

€  ksize: 池 化 窗口 的 大 小 ， 取 一 个 四 维 向 量 ， 一 般 是 [1, height, width, 1]， 因 为 我 们 不 
想 在 batch 和 channels 上 做 池 化 ， 所 以 这 两 个 维度 设 为 1。 

€ strides: 和 卷 积 类 似 ， 窗 口 在 每 一 个 维度 上 滑动 的 步 长 ， 一 般 也 是 [1，stride.stride， 
]. 

€ padding: 和 卷 积 类 似 ， 可 以 取 VALID 或 者 SAME， 返 回 一 个 Tensor， 类 型 不 变 ， 
shape 仍然 是 [batch, height, width, channels] 这 种 形式 。 
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-s 


max-pooling 
图 11-4 max-pooling 后 的 图 片 


池 化 一 个 非常 重要 的 作用 就 是 能 够 帮助 输入 的 数据 表示 近似 不 变性 。 对 于 平移 不 变性 指 
的 是 对 输入 的 数据 进行 少量 平移 时 ， 经 过 池 化 后 的 输出 结果 并 不 会 发 生 改 变 。 局 部 平移 不 变 
性 是 一 个 很 有 用 的 性 质 ， 尤 其 是 当 关心 某 个 特征 是 否 出 现 而 不 关心 它 出 现 的 具体 位 置 时 。 

例如 ， 当 判定 一 张 图 像 中 是 否 包 含 人 脸 时 ， 并 不 需要 判定 眼睛 的 位 置 ， 而 是 需要 知道 有 
一 只 眼睛 出 现在 脸 部 的 左 侧 ， 另 外 一 只 出 现在 右 侧 就 可 以 了 。 


【程序 11-8】 
import tensorflow as tf 
data-tf.constant([ 
[[3.0,2.0,3.0,4.0], 
[2.0,6.0,2.0,4.0], 
[1.0,2.0,1.0,5.0], 
[4.0,3.0,2.0,1.0]] 
]) 
data = tf.reshape (data, [1,4,4,1]) 
maxPooling-tf.nn.max pool(data, [1, 2, 2, 1], [1, 2, 2, 1], padding-'VALID') 





with tf.Session() as sess: 


print (sess .run (maxPooling) 


最 终结 果 如 下 : 
6 4 
4 5 
3 2 3 4 
2 6 2 4 
1 2 1 5 
4 3 2 1 
程序 打印 结果 如 下 : 


EEEL 6.1] 
[4.1] 


[t 4.1] 
[ 5.111] 
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11.1.5 ”使 用 池 化 运算 加 强 卷 积 特征 提取 


现在 考虑 11.1.3 小 节 中 对 图 像 感 兴趣 区 域 的 提取 问题 ， 此 时 如 果 在 进行 卷 积 后 的 图 片上 
加 上 一 个 卷 积 ， 代 码 如 下 所 示 。 


【程序 11-9】 
import tensorflow as tf 
import cv2 
import numpy as np 


img = cv2.imread("lena.jpg") 
img = np.array(img,dtype-np.float32) 
Xx image-tf.reshape (img, [1,512,512,3]) 


filter = tf.Variable(tf.ones([7, 7, 3, 1])) 


init - tf.global variables initializer() 
with tf.Session() as sess: 


sess.run(init) 

res = tf.nn.conv2d(x image, filter, strides-[1, 2, 2, 1], padding-'SAME') 
res - tf.nn.max pool(res, [1, 2, 2, 1], [1, 2, 2, 1], padding-'VALID') 
res image = sess.run(tf.reshape (res, [128,128]))/128 + 1 


cv2.imshow("lena",res image.astype('uint8')) 
cv2.waitKey() 


而 最 终结 果 如 图 11-5 所 示 。 





11-5 ” 低 卷 积 处 理 的 图 像 结 果 


11-5 展示 了 原 图 、 图 像 经 过 [7.7] 大 小 的 卷 积 以 及 池 化 后 的 输出 结果 ， 从 视觉 上 看 这 个 
图 像 经 过 卷 积 和 池 化 处 理 后 并 没有 什么 变化 ， 我 们 打印 出 的 张 量 结果 如 下 。 
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cov: Tensor("Conv2D:0", shape-(1, 256, 256, 1), dtype-float32) 


maxpool: Tensor("MaxPool:0", shape-(1, 128, 128, 1), dtype-float32) 


原始 图 像 大 小 为 [512.512]， 经 过 卷 积 后 大 小 变 为 [256.256]， 再 经 过 池 化 后 图 片 大 小 变 为 
[128,128]。 这 个 缩减 在 神经 网 络 的 处 理 上 是 非常 可 观 的 。 

前 面 通过 多 种 实例 和 方法 说 明了 卷 积 运算 可 以 对 图 像 特 征 所 提取 出 的 数据 进行 特征 提取 
和 压缩 , 这 在 神经 网 络 中 可 以 极 大 地 提高 运算 效率 和 获取 图 像 的 特征 。 但 是 在 拥有 这 些 好 处 的 
同时 , 卷 积 核 池 化 有 其 不 足 之 处 , 主要 是 在 图 像 进行 卷 积 与 池 化 时 可 能 导致 欠 拟 合 (underfit) 。 
当 训 练 模型 需要 保存 精确 的 图 像 特 征 时 , 使 用 卷 积 和 池 化 会 加 大 训练 误差 , 或 者 当 卷 积 核 在 图 
像 上 移动 的 步伐 过 大 或 过 小 时 ， 会 导致 拟 合 不 合适 。 


11.2 卷 积 神经 网 络 的 结构 详解 


前 面 介绍 了 卷 积 运算 的 基本 原理 和 概念 , 从 本 质 上 来 说 卷 积 神经 网 络 就 是 将 图 像 处 理 中 的 
二 维 离散 卷 积 运算 和 神经 网 络 相 结合 。 这 种 卷 积 运算 可 以 用 于 自动 提取 图 像 特征 ,而 卷 积 神经 
网 络 也 主要 应 用 于 二 维 图 像 的 识别 。 


11.2.1 ” 卷 积 神经 网 络 原理 


卷 积 的 原理 和 池 化 作用 在 上 文 已 经 做 了 详细 的 介绍 ， 本 节 将 采用 图 示 的 方法 更 加 直观 地 
介绍 卷 积 神经 网 络 的 工作 原理 ， 并 使 用 TensorFlow 实现 经 典 的 LeNet 网 络 ， 这 是 卷 积 神经 网 
络 处 理 图 像 的 开山 之 作 ， 也 是 最 基础 的 网 络 结构 。 

一 个 卷 积 神经 网 络 包含 一 个 输入 层 、 一 个 卷 积 层 、 一 个 输出 层 ， 但 是 在 真正 使 用 的 时 候 ， 
一 般 会 使 用 多 层 卷 积 神经 网 络 不 断 地 去 提取 特征 ， 特 征 越 抽 象 ， 越 有 利于 识别 〈 分 类 ) 。 而 且 
通常 卷 积 神经 网 络 也 包含 池 化 层 、 全 连接 层 ， 最 后 再 接 输出 层 。 

图 11-6 展示 了 一 幅 图 片 进行 卷 积 神经 网 络 处 理 的 过 程 。 这 个 处 理 过 程 主要 包含 4 
个 步骤 : 

(1) 图 像 输入 : 获取 输入 的 数据 图 像 。 

(2) 卷 积 : 对 图 像 特 征 进行 提取 。 

(3) maxpool: 用 于 缩小 在 卷 积 时 获取 的 图 像 特 征 。 

(4) 全 连接 层 : 用 于 对 图 像 进行 分 类 。 
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图 11-6 卷 积 神经 网 络 处 理 图 像 的 步 又 


这 几 个 步骤 依次 进行 ， 分 别 具 有 不 同 的 作用 。 经 过 卷 积 层 的 图 像 被 分 别提 取 特 征 后 将 获 
得 分 块 的 同样 大 小 的 图 片 ， 如 图 11-7 所 示 。 


E dE | 
iT 
Nt | 
Hk. MED 
"UCEPPTLLTIPPT 
Fr 
BENEBESBNNEE 


图 11-7 卷 积 处 理 的 分 解 图 像 
可 以 看 到 ， 经 过 卷 积 处 理 后 的 图 像 被 分 为 若干 个 大 小 相同 的 、 只 具有 局 部 特征 的 图 片 。 下 
面 继 续 对 分 解 后 的 图 片 使 用 一 个 小 型 神经 网 络 做 进一步 处 理 ， 即 将 二 维和 矩阵 转化 成 一 维 数 
组 ， 如 图 11-8 所 示 。 


Processing a single tile 


Input Tile Qutput 


11-8 分 解 后 图 像 的 处 理 
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需要 说 明 的 是 ， 在 这 个 步骤 ， 也 就 是 对 图 片 进行 卷 积 化 处 理 时 ， 卷 积 算法 对 所 有 的 分 解 
后 的 局 部 特征 进行 同样 的 计算 ， 这 个 步骤 称 为 “ 权 值 共享 ”。 这 样 做 的 依据 如 下 : 


e ”对 图 像 等 数组 数据 来 说 ， 局 部 数组 的 值 经 常 是 高 度 相 关 的 ， 可 以 形成 容易 被 探测 到 
的 独特 的 局 部 特征 。 

e 图像 和 其 他 信号 的 局 部 统计 特征 与 其 位 置 是 不 太 相 关 的 ， 如 果 特 征 图 能 在 图 片 的 一 
个 部 分 出 现 ， 也 能 出 现在 任何 地 方 。 所 以 不 同位 置 的 单元 共享 同样 的 权重 ， 并 在 数 
组 的 不 同 部 分 探测 相同 的 模式 。 


数学 上 ， 这 种 由 一 个 特征 图 执行 的 过 滤 操 作 是 一 个 离散 的 卷 积 ， 卷 积 神经 网 络 由 此 得 名 。 

池 化 层 的 作用 是 对 获取 的 图 像 特 征 进行 缩减 ， 从 前 面 的 例子 中 可 以 看 到 ， 使 用 [2,2] 大 小 
的 矩阵 来 处 理 特征 矩阵 ， 使 得 原 有 的 特征 矩阵 可 以 缩减 到 1/4 大 小 ， 特 征 提取 的 池 化 效应 如 
图 11-9 所 示 。 


Find the max value in each 
grid square in our Array 


Max-pooled array 





图 11-9 池 化 处 理 后 的 图 像 


池 化 层 的 作用 是 对 获取 的 图 像 特征 进行 缩减 ， 从 前 面 的 例子 中 可 以 看 到 ， 使 用 [2.2] 大 小 
的 矩阵 来 处 理 特征 矩阵， 使 得 原 有 的 特征 矩阵 可 以 缩减 到 1/4 大 小 特征 提取 的 池 化 效应 。 

经 过 池 化 处 理 的 图 像 窍 阵 作为 神经 网 络 的 数据 输入 ， 这 是 一 个 全 连接 层 , 它 对 所 有 的 数据 
进行 分 类 处 理 ， 并 且 计算 这 个 图 像 的 所 属 位 置 概率 最 大 值 ， 如 图 11-10 所 示 。 


Outputs 


Fully-connected 
Neural Network 





图 11-10 全 连接 层 判断 
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如 果 采 用 较为 通俗 的 语言 概括 ， 卷 积 神经 网 络 是 一 个 层级 递增 的 结构 ， 整 个 过 程 举 个 例 
子 说 明 ,就 像 是 一 个 人 在 读 报纸 一 样 ， 首 先 一 字 一 句 地 读 取 ， 之 后 整 段 地 理解 ， 最 后 获得 全 文 
内 容 所 表达 的 意思 。 卷 积 神经 网 络 也 是 从 边缘 、 结 构 和 位 置 等 一 起 感知 物体 的 形状 。 


11.2.2 ” 卷 积 神经 网 络 的 应 用 实例 一 一 LeNet5 网 络 结构 

在 计算 机 视觉 中 卷 积 神经 网 络 取得 了 巨大 的 成 功 , 它 在 工业 上 以 及 商业 上 的 应 用 很 多 , 一 
种 商业 上 最 典型 的 应 用 就 是 用 于 识别 支票 上 的 手写 数字 的 LeNets 神经 网 络 。 从 20 世纪 90 年 
代 开始 美国 大 多 数 银行 都 用 这 种 技术 识别 支票 上 的 手写 数字 ， 如 图 11-11 所 示 。 





个 Fs ayer-5 
Layer-3 Input 
Layer-1 


图 11-11 LeNet5 卷 积 神经 网 络 应 用 


实际 应 用 中 的 LeNet5 卷 积 神经 网 络 共有 8 层 〈 如 图 11-12 所 示 ) ， 其 中 每 层 都 包含 可 训 
练 的 神经 元 ， 连 接 神 经 元 的 是 每 层 的 权重 。 





C3: f. maps 16@10x10 
S4: f. maps 


C1: feature maps 
6@28x28 


INPUT 
32x32 


Subsampling 





图 11-12 /Uz LeNet5 卷 积 神经 网 络 


首先 对 于 INPUT 层 来 说 ， 这 是 数据 的 输入 层 ， 在 原始 模型 框架 中 ， 输 入 图 像 大 小 为 
[32,32]， 这 样 能 够 将 所 有 的 手写 信息 被 神经 网 络 感受 到 。 
第 一 个 卷 积 层 C1 是 最 初 开始 进行 卷 积 计算 的 层 数 。 卷 积 层 特征 的 计算 公式 如 下 : 


x = FP E) b) 
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其 中 x 1 表示 从 第 1 层 到 1+1 层 要 产生 的 feature 数量 ， 即 5X5=25 个 ; b 代表 bias 
的 数量 ， 这 里 的 bias 是 1。 从 C1 的 深度 上 来 看 ， 模 型 中 的 深度 为 6， 因此 可 以 计算 到 在 卷 积 
E C1 中 所 有 的 参数 个 数 为 6X(5X5+1)=156 个 。 对 于 C1 层 来 说 ， 每 个 像素 都 与 前 一 个 输入 
层 的 像素 相连 接 ， 因 此 C1 层 总 共有 156X28X28=122304 个 连接 。 

对 于 S2 这 个 pooling 层 来 说 ， 这 里 是 C1 中 的 [2.2] 区 域内 的 像素 求 和 再 加 上 一 个 偏 置 ， 然 
后 将 这 个 结果 再 做 一 次 映射 (sigmoid 等 函数 ), 所 以 相当 于 对 ST 做 了 降 维 , 此 处 共有 6X2=12 
个 参数 。S2 中 的 每 个 像素 都 与 C1 中 的 2x2 个 像素 和 1 个 偏 置 相连 接 ， 所 以 有 6X5X14X 
14-5880 个 连接 (connection) . C1 到 S2 的 处 理 结构 如 图 11-13 所 示 。 

















图 11-13 C1 到 S2 的 处 理 结构 
LeNet5 最 复杂 的 就 是 S2 到 C3 层 ， 其 连接 如 图 11-14 所 示 。 





Æ 11-14 S2 到 C3 的 处 理 结构 





前 6 个 feature map 与 S2 层 相 连 的 3 个 feature map 相连 接 , 后 面 6 个 feature map 与 S2 层 
相连 的 4 个 feature map 相连 接 ， 后 面 3 个 feature map 与 S2 层 部 分 不 相连 的 4 个 feature map 
相连 接 ， 最 后 一 个 与 S2 层 的 所 有 feature map 相连 。 卷 积 核 大 小 依然 为 5X5， 所 以 总 共有 6 
X(3X5X5+1)+6X(4X5X5+1)+3X(4X5X5+1)+1X(6X5X5+1)=1516 个 参数 。 而 图 像 大 小 为 
10X10， 所 以 共有 151600 个 连接 。 

S4 是 pooling 层 ， 窗 口 大 小 仍然 是 2X2， 共 计 16 个 feature map, MUA 32 个 参数 ，16 
X (25X 4+25)=2000 个 连接 。 

C5 是 卷 积 层 ， 总 共 120 个 feature map， 每 个 feature map 与 S4 层 所 有 的 feature map 相连 
接 ， 卷 积 核 大 小 是 5SX5， 而 S4 层 的 feature map 的 大 小 也 是 5X5， 所 以 C5 的 feature map 就 
变 成 了 1 个 点 ， 共 计 有 120X(25X16+1)=48120 个 参数 。 
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F6 层 也 是 全 连接 层 ， 有 84 个 节点 ， 所 以 有 84X(120+1)=10164 个 参数 。F6 层 采 用 了 正切 
函数 ， 计 算 公 式 为 : 
x = f(a,) = tanh (a,) 
最 后 是 输出 层 ， 以 上 这 8 层 合 在 一 起 构成 了 LeNetS 神经 网 络 的 全 部 结构 。 


11.2.3 ” 卷 积 神经 网 络 的 训练 


卷 积 网 络 在 本 质 上 是 一 种 输入 到 输出 的 映射 ， 它 能 够 学 习 大 量 的 输入 与 输出 之 间 的 映射 
关系 ， 而 不 需要 任何 输入 和 输出 之 间 的 精确 的 数学 表达 式 。 只 要 用 已 知 的 模式 对 卷 积 网 络 加 以 
训练 ， 网 络 就 具有 输入 输出 对 之 间 的 映射 能 力 。 卷 积 网 络 执行 的 是 有 导师 训练 ， 所 以 其 样本 
集 是 由 形 如 (输入 向 量 ， 理 想 输出 向 量 ) 的 向 量 对 构成 的 。 

所 有 这 些 向 量 对 ， 都 应 该 是 来 源 于 网 络 即将 模拟 的 系统 的 实际 “运行 ”结果 。 它 们 可 以 
是 从 实际 运行 系统 中 采集 来 的 。 在 开始 训练 前 ， 所 有 的 权 都 应 该 用 一 些 “ 不 同 的 小 随机 数 ” 进 
行 初始 化 。“ 小 随机 数 ” 用 来 保证 网 络 不 会 因 权 值 过 大 而 进入 饱和 状态 ， 从 而 导致 训练 失 
败 ; “不 同 ” 用 来 保证 网 络 可 以 正常 地 学 习 。 实 际 上 ， 如 果 用 相同 的 数 去 初始 化 权 和 矩阵 ， 则 
网 络 无 能 力学 习 。 

卷 积 神经 网 络 的 具体 使 用 上 和 一 般 反 馈 神 经 网 络 相 同 ， 分 成 前 向 传播 和 后 向 传播 。 

1. 第 一 阶段 : 向 前 传播 阶段 

COD. 从 样本 集中 取 一 个 样本 ， 将 样本 输入 卷 积 神经 网 络 。 

(2) 计算 相应 的 实际 输出 。 


在 此 阶段 ， 信 息 从 输入 层 经 过 逐 级 的 变换 ， 传 送 到 输出 层 。 这 个 过 程 也 是 网 络 在 完成 训 
练 后 正常 运行 时 执行 的 过 程 。 在 此 过 程 中 ， 网 络 执行 的 是 计算 (实际 上 就 是 输入 与 每 层 的 权 值 
矩阵 相 乘 ， 得 到 最 后 的 输出 结果 ) o 

2. 第 二 阶段 : 向 后 传播 阶段 


COD 计算 实际 输出 Op 与 相应 的 理想 输出 Yp 的 差 。 
(2) 按 极 小 化 误差 的 方法 反 向 传播 调整 权 值 矩阵 。 





1 1 e 3 TensorFlow 实现 LeNet 实例 


前 面 已 经 介绍 了 LeNet 的 实例 ,本 节 开 始 根据 LeNet 结构 构建 这 个 经 典 的 深度 神经 网 络 模 
型 ， 如 图 11-15 所 示 。 本 节 首先 会 逐步 对 LeNet 中 的 每 一 层 进行 分 解 ， 并 对 神经 元 的 个 数 、 隐 
藏 层 的 层 数 以 及 学 习 率 等 神经 网 络 关键 参数 做 出 调整 ， 以 观察 模型 训练 的 时 间 。 
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11-15 LeNet 神经 网 络 模型 


11.3.1 LeNet 模型 分 解 


首先 是 数据 的 导入 ， 这 里 使 用 的 是 MNIST 数据 集 ， 对 数据 的 导入 使 用 给 定 的 数据 导入 方 
法 以 及 相关 的 包 ， 代 码 如 下 : 

import tensorflow as tf 

from tensorflow.examples.tutorials.mnist import input data 

import time 

可 以 看 到 ， 这 里 导入 了 3 个 包 ， 分 别 是 tensorflow、input_data 以 及 time. 

下 面 是 声明 输入 图 片 的 数据 和 类 别 : 


x = tf.placeholder('float', [None, 784]) 
y = tf.placeholder('float', [None, 10]) 


之 后 对 输入 的 数据 进行 转化 ， 前 面 章节 已 经 介绍 了 这 里 的 MNIST 数据 集 是 以 [None,784] 
的 数据 格式 存放 的 ， 而 对 于 卷 积 神经 网 络 来 说 ， 需 要 保存 图 像 的 位 置信 息 ， 因 此 这 里 将 一 维 的 
数组 重新 转换 为 二 维 图 像 矩 阵 : 


X image = tf.reshape(x, [-1, 28, 28, 1]) 


接 下 来 是 第 一 个 卷 积 层 的 处 理 ， 这 里 需要 将 输入 的 数据 由 [28.28] 转 化 为 [28.28.6] 的 矩阵 ， 
其 中 第 三 个 参数 “6” 指 的 是 图 片 经 过 卷 积 后 分 成 6 个 通道 。 具 体 实现 代码 如 下 : 

filterl = tf.Variable(tf.truncated normal([5, 5, 1, 6])) 

biasl = tf.Variable(tf.truncated normal([6])) 

convl = tf.nn.conv2d(x image, filterl, strides-[1, 1, 1, 1], padding-'SAME') 

h convl = tf.nn.sigmoid(convl + biasl) 


可 以 看 到 ， 这 里 filter] 和 biasl 分 别 是 使 用 给 变量 初始 化 卷 积 核 和 偏 置 值 。filterl 中 的 4 
个 参数 分 别 表 示 卷 积 核 是 由 5X5 大 小 的 卷 积 , 输入 为 1 个 通道 , 输出 为 6 个 通道 。biasl 指 的 
是 生成 的 偏 置 值 与 卷 积 结果 进行 求 和 的 计算 。 最 后 通过 sigmoid 函数 求 得 第 一 个 卷 积 层 输出 结 
果 。 

在 第 一 个 卷 积 层 之 后 是 一 个 池 化 层 ， 这 里 使 用 的 是 maxPooling， 对 2X2 大 小 的 框 进行 最 
大 特征 取 值 。 代 码 如 下 : 
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maxPool2 = tf.nn.max pool(h convl, ksize-[1, 2, 2, 1],strides-[1, 2, 2, 1], 
padding-'SAME') 


可 以 看 到 卷 积 的 大 小 由 ksize 设置 ，strides 是 步 进 的 大 小 ， 这 里 是 传统 的 2 格 步 进 。 

第 三 层 仍旧 是 卷 积 层 ， 这 里 需要 进行 卷 积 计算 后 的 大 小 为 [10,10,16]， 其 后 的 池 化 层 将 特 
征 进行 再 一 次 压缩 。 代 码 如 下 : 

filter2 = tf.Variable(tf.truncated normal([5, 5, 6, 16])) 

bias2 - tf.Variable(tf.truncated normal([16])) 


conv2 = tf.nn.conv2d(maxPool2, filter2, strides-[1, 1, 1, 1], padding-'SAME') 


h conv2 = tf.nn.sigmoid(conv2 + bias2) 


maxPool3 = tf.nn.max pool(h conv2, ksize-[1, 2, 2, 1],strides-[1, 2, 2, 1], 
padding-'SAME') 


filter3 = tf.Variable(tf.truncated normal([5, 5, 16, 120])) 
bias3 = tf.Variable(tf.truncated normal([120])) 
conv3 = tf.nn.conv2d(maxPool3, filter3, strides-[1, 1, 1, 1], padding-'SAME') 


h conv3 = tf.nn.sigmoid(conv3 + bias3) 


后 面 的 2 个 是 全 连接 层 ， 全 连接 层 的 作用 在 整个 卷 积 神经 网 络 中 起 到 “分 类 器 ”的 作用 。 
如 果 说 卷 积 层 、 池 化 层 和 激活 函数 层 等 操作 是 将 原始 数据 映射 到 隐 层 特征 空间 的 话 , 全 连接 层 
则 起 到 将 学 到 的 “分 布 式 特征 表示 ”映射 到 样本 标记 空间 的 作用 。 有 具体 实现 代码 如 下 : 

W fcl = tf.Variable(tf.truncated normal([7 * 7 * 120, 80])) 

b fcl - tf.Variable(tf.truncated normal([80])) 

h pool2 flat - tf.reshape(h conv3, [-1, 7 * 7 * 120]) 

h fcl = tf.nn.sigmoid(tf.matmul(h pool2 flat, W fcl) + b fcl) 


# 输出 层 ， 使 用 softmax 进行 多 分 类 

W fc2 = tf.Variable(tf.truncated normal([80, 10])) 

b fc2 - tf.Variable(tf.truncated normal([10])) 

*y conv = tf.maximum(tf.nn.softmax(tf.matmul(h fcl, W fc2) + b fc2), 1e-30) 
y conv = tf.nn.softmax(tf.matmul(h fcl, W fc2) + b fc2) 


这 里 对 池 化 后 的 数据 重新 展开 , 将 二 维 数据 重新 展开 成 一 维 数组 之 后 , 计算 每 一 行 的 元 素 
个 数 。 最 后 一 个 输出 层 使 用 了 softmax 进行 概率 计算 。 

cross entropy = -tf.reduce sum(y * tf.log(y conv)) 

train step = 
tf.train.GradientDescentOptimizer(0.001).minimize(cross entropy) 

最 后 是 交叉 粒 作 为 损失 函数 ， 使 用 梯度 下 降 算法 来 对 模型 进行 训练 。 

完整 代码 如 程序 11-10 所 示 。 
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【程序 11-10] 
import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


import time 


# 声明 输入 图 片 数 据 ， 类 别 

X = tf.placeholder('float', [None, 784]) 
y = tf.placeholder('float', [None, 10]) 
# 输入 图 片 数 据 转化 

x image = tf.reshape(x, [-1, 28, 28, 1]) 


# 第 一 层 卷 积 层 ， 初 始 化 卷 积 核 参 数 、 偏 置 值 ， 该 卷 积 层 5*5 大 小 ， 一 个 通道 ， 共 有 6 个 不 同 卷 积 核 
filterl = tf.Variable(tf.truncated normal([5, 5, 1, 61)) 

biasl = tf.Variable(tf.truncated normal([6])) 

convl = tf.nn.conv2d(x image, filterl, strides-[1, 1, 1, 1], padding-'SAME') 
h convi = tf.nn.sigmoid(convl + biasl) 


maxPool2 = tf.nn.max pool(h convl, ksize-[1, 2, 2, 1],strides-[1, 2, 2, 1], 
padding-'SAME') 


filter2 - tf.Variable(tf.truncated normal([5, 5, 6, 16])) 
bias2 = tf.Variable(tf.truncated normal([16])) 
conv2 = tf.nn.conv2d(maxPool2, filter2, strides-[1, 1, 1, 1], padding-'SAME') 


h conv2 = tf.nn.sigmoid(conv2 + bias2) 


maxPool3 - tf.nn.max pool(h conv2, ksize-[1, 2, 2, 1],strides-[1, 2, 2, 1], 
padding-'SAME') 


filter3 - tf.Variable(tf.truncated normal([5, 5, 16, 120])) 

bias3 = tf.Variable(tf.truncated normal([120])) 

conv3 = tf.nn.conv2d(maxPool3, filter3, strides-[1, 1, 1, 1], padding-'SAME'!) 
h conv3 = tf.nn.sigmoid(conv3 + bias3) 


# 全 连接 层 

* 权 值 参数 

W fcl = tf.Variable(tf.truncated normal([7 * 7 * 120, 80])) 
+ 偏 置 值 

b fcl = tf.Variable(tf.truncated normal([80])) 


将 卷 积 的 产 出 展开 
h pool2 flat = tf.reshape(h conv3, [-1, 7 * 7 * 120]) 
# 神经 网 络 计算 ， 并 添加 sigmoid 激活 函数 
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* 输出 层 ， 使 用 softmax 进行 多 分 类 


W fc2 = tf.Variable(tf.truncated normal([80, 10])) 

b fc2 = tf.Variable(tf.truncated normal([10])) 

y conv = tf.nn.softmax(tf.matmul(h fcl, W fc2) + b fc2) 

损失 函数 

cross entropy = -tf.reduce sum(y * tf.log(y conv)) 

* 使 用 GDo 优化 算法 来 调整 参数 

train step = 
tf.train.GradientDescentOptimizer(0.001).minimize(cross entropy) 


sess = tf.InteractiveSession() 

# 测试 正确 率 

correct prediction = tf.equal(tf.argmax(y conv, 1), tf.argmax(y , 1)) 
accuracy = tf.reduce mean(tf.cast(correct prediction, "float")) 


* 所 有 变量 进行 初始 化 


sess.run(tf.global variables initializer()) 


# 获取 mnist 数据 


mnist data set = input data.read data sets('MNIST data', one hot-True) 


+ 进行 训练 
start time = time.time() 
for i in range(20000): 
# 获取 训练 数据 
batch xs, batch ys = mnist data set.train.next batch(200) 


# 每 迭代 100 个 batch， 对 当前 训练 数据 进行 测试 ， 输 出 当前 预测 准确 率 
if i $ 2 = 0: 
train accuracy = accuracy.eval(feed dict-(x: batch xs, y : batch ys]) 
print("step $d, training accuracy $g" $ (i, train accuracy)) 
# 计算 间隔 时 间 
end time = time.time() 
print('time: ', (end time - start time)) 
start time — end time 
* 训练 数据 
train step.run(feed dict-(x: batch xs, y : batch ys]) 


关闭 会 话 


sess.close() 
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为 了 验证 结果 ， 这 里 同样 使 用 了 accuracy 作为 正确 率 的 判断 ， 对 输入 的 数据 计算 模型 计 
算 结 果 和 真实 值 之 间 的 差距 。 
具体 结果 如 下 : 


step 0, training accuracy 0.1 
time: 0.07000398635864258 

step 2, training accuracy 0.06 
time: 0.39702272415161133 

step 4, training accuracy 0.135 
time: 0.39902281761169434 


step 494, training accuracy 0.815 
time: 0.3930225372314453 
step 496, training accuracy 0.825 
time: 0.39702272415161133 


step 1362, training accuracy 0.955 
time: 0.4080233573913574 
step 1364, training accuracy 0.94 
time: 0.40502309799194336 
step 1366, training accuracy 0.935 
time: 0.40702342987060547 


可 以 看 到 ， 准 确 率 在 平滑 地 上 升 ， 当 作 第 500 次 迭代 时 ， 准 确 率 能 达到 0.825 左右 ; 而 当 
达到 1350 次 迭代 时 ， 准 确 率 能 达到 0.955 左右 。 


11.3.2 ”使 用 ReLU 激活 函数 替代 Sigmoid 


对 于 神经 网 络 模型 来 说 , 首先 重要 的 一 个 目标 就 是 能 够 达到 最 好 的 准确 率 , 这 需要 通过 设 
计 不 同 的 模型 和 算法 完成 。 其 次 在 模型 的 训练 过 程 中 一 般 要 求 能 够 在 最 短 的 时 间 内 达到 收敛 。 

图 11-16 是 模型 在 1000 次 迭代 过 程 中 准确 率 的 描绘 。 此 时 在 对 模型 的 准确 率 的 绘制 过 程 
中 可 以 看 到 , 在 前 面 200 次 迭代 计算 过 程 中 准确 率 上 升 得 非常 慢 , 之 后 准确 率 有 个 非常 快速 上 
升 的 过 程 ， 而 到 达 一 定数 值 后 准确 率 又 重新 缓慢 上 升 。 
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图 11-16 传统 的 Sigmoid 和 Tanh 激活 函数 
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前 面 的 分 析 中 , 在 算法 设计 上 激活 函数 使 用 的 是 Sigmoid 函数 。 传 统 神经 网 络 中 最 常用 的 
两 个 激活 函数 为 Sigmoid 和 Tanh，Sigmoid (Logistic-Sigmoid、Tanh-Sigmoid) 被 视 为 神经 网 
络 的 核心 所 在 。 从 数学 上 来 看 ， 非 线性 的 Sigmoid 函数 对 中 央 区 的 信号 增益 较 大 ， 对 两 侧 区 的 
信号 增益 较 小 ， 在 信号 的 特征 空间 映射 上 有 很 好 的 效果 。 

但 是 从 图 11-17 上 也 可 以 看 到 ， 由 于 Sigmoid 和 Tanh 激活 函数 左右 两 端 在 很 大 程度 上 接 
近 极 值 ， 容 易 饱 和 ， 因 此 在 进行 计算 时 ， 当 传递 的 数值 过 小 或 者 过 大 , 会 使 得 神经 元 梯度 接近 
于 0， 这 使 得 模型 在 计算 时 会 多 次 计算 接近 于 0 的 梯度 ， 从 而 导致 花费 了 学 习 时 间 却 使 得 权重 没 
有 更 新 。 











图 11-17 传统 的 Sigmoid 和 Tanh 激活 函数 


为 了 克服 Sigmoid 和 Tanh 函数 容易 产生 提取 梯度 迟缓 这 一 浆 端 ， 在 不 断 研究 的 过 程 中 发 
现 了 一 种 新 的 激活 函数 ReLU 函数 ， 如 图 11-18 所 示 。 


f(x) = max(0,x) 





图 11-18 ReLU 激活 函数 
相 较 于 Sigmoid 和 Tanh 函数 ， ReLU 函数 主要 有 以 下 几 个 优点 : 


© ”收敛 快 : 对 SGD 的 收 仇 有 巨大 的 加 速 作用 ， 可 以 看 到 对 于 达到 阔 值 的 数据 其 激活 
力度 随 数值 的 加 大 而 增 大 ， 且 呈现 出 一 个 线性 关系 。 
e ”计算 简单 : ReLU 的 算法 较为 简单 ， 单 纯 一 个 值 的 输入 输出 不 需要 进行 一 系列 的 复杂 
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计算 ， 从 而 获得 激活 值 。 


@ 不 易 过 拟 合 : 使 用 ReLU 进行 模型 计算 时 , 一 部 分 神经 元 在 计算 时 如 果 有 一 个 过 大 的 
梯度 经 过 ， 那么 次 神经 元 的 梯度 会 被 强行 设置 为 0， 而 在 整个 其 后 的 训练 过 程 中 这 个 
神经 元 都 不 会 被 激活 ， 这 会 导致 数据 多 样 化 的 丢失 ,但 是 也 能 防止 过 拟 合 。 这 个 现象 
一 般 不 被 注意 到 。 


【程序 11-11】 
import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


import time 


+ 声明 输入 图 片 数据 ， 类 别 

x = tf.placeholder('float', [None, 784]) 
y = tf.placeholder('float', [None, 10]) 
# 输入 图 片 数据 转化 

Xx image = tf.reshape(x, [-1, 28, 28, 1]) 


# 第 一 层 卷 积 层 ， 初 始 化 卷 积 核 参 数 、 偏 置 值 ， 该 卷 积 层 5*5 大 小 ， 一 个 通道 ， 共 有 6 个 不 同 卷 积 核 
filterl = tf.Variable(tf.truncated normal([5, 5, 1, 6])) 

biasl = tf.Variable(tf.truncated normal([6])) 

convl = tf.nn.conv2d(x image, filterl, strides-[1, 1, 1, 1], padding-'SAME') 


h convl = tf.nn.relu(convl + biasl) 


maxPool2 = tf.nn.max pool(h convi, ksize-[1, 2, 2, 1],strides-[1, 2, 2, 1], 
padding-'SAME') 


filter2 = tf.Variable(tf.truncated normal([5, 5, 6, 16])) 
bias2 = tf.Variable(tf.truncated normal([16])) 
conv2 = tf.nn.conv2d(maxPool2, filter2, strides-[1, 1, 1, 1], padding-'SAME') 


h conv2 = tf.nn.relu(conv2 + bias2) 


maxPool3 = tf.nn.max pool(h conv2, ksize-[1, 2, 2, 1],strides-[1, 2, 2, 1], 
padding-'SAME!') 


filter3 = tf.Variable(tf.truncated normal([5, 5, 16, 120])) 
bias3 = tf.Variable(tf.truncated normal([120])) 
conv3 = tf.nn.conv2d(maxPool3, filter3, strides-[1, 1, 1, 1], padding-'SAME') 


h conv3 = tf.nn.relu(conv3 + bias3) 


t 全 连接 层 
* 权 值 参数 


W fcl = tf.Variable(tf.truncated normal([7 * 7 * 120, 80])) 


+ 偏 置 值 
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b fcl = tf.Variable(tf.truncated normal([80])) 

将 卷 积 的 产 出 展开 

h pool2 flat = tf.reshape(h conv3, [-1, 7 * 7 * 1201) 
神经 网 络 计算 ， 并 添加 relu 激活 函数 

h fcl = tf.nn.relu(tf.matmul(h pool2 flat, W fcl) + b fcl) 


# 输出 层 ， 使 用 softmax 进行 多 分 类 

W fc2 = tf.Variable(tf.truncated normal([80, 10])) 

b fc2 = tf.Variable(tf.truncated normal([10])) 

y conv = tf.nn.softmax(tf.matmul(h fcl, W fc2) + b fc2) 
+ 损失 函数 

cross entropy = -tf.reduce sum(y * tf.log(y conv)) 

* 使 用 GDo 优化 算法 来 调整 参数 

train step = 


tf.train.GradientDescentOptimizer (0.001).minimize(cross entropy) 


sess = tf.InteractiveSession() 
# 测试 正确 率 
correct prediction = tf.equal(tf.argmax(y conv, 1), tf.argmax(y , 1)) 


accuracy - tf.reduce mean(tf.cast(correct prediction, "float")) 


* 所 有 变量 进行 初始 化 


sess.run(tf.global variables initializer()) 


# 获取 mnist 数据 
mnist data set = input data.read data sets('MNIST data', one hot-True) 


# 进行 训练 

start time = time.time() 

for i in range(20000): 
# 获取 训练 数据 


batch xs, batch ys = mnist_data_set.train.next_batch (200) 


# 每 迭代 100 个 batch， 对 当前 训练 数据 进行 测试 ， 输 出 当前 预测 准确 率 
if i $ 2 = 0: 
train accuracy - accuracy.eval(feed dict-(x: batch xs, y : batch ys]) 
print("step $d, training accuracy $g" $ (i, train accuracy)) 
# 计算 间隔 时 间 
end time = time.time() 
print('time: ', (end time - start time)) 
start time — end time 


+ 训练 数据 
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train step.run(feed dict={x: batch xs, y : batch ys]) 


+ 关闭 会 话 

sess.close() 

在 程序 11-11 中 使 用 了 ReLU 函数 普 代 Sigmoid 函数 , 其 他 没有 变化 , 准确 率 结果 如 图 11-19 
所 示 。 

















"d 200 400 600 800 1000 
11-19. 使 用 ReLU 激活 函数 的 准确 率 计算 


从 图 中 可 以 看 到 ， 准确 率 并 没有 提高 ， 反而 长 时 间 在 低 水 平 徘徊 。 在 前 面 介绍 ReLU 优点 
的 时 候 就 说 过 , 不 同 的 学 习 率 对 ReLU 模型 的 训练 会 有 很 大 影响 , 准确 率 设置 不 当 会 造成 大 量 
的 神经 元 被 锁 死 。 如 果 此 时 将 模型 的 学 习 率 做 个 改变 : 

train step = 
tf.train.GradientDescentOptimizer(0.0001).minimize(cross entropy) 

即 减少 了 模型 的 学 习 率 ， 由 0.001 变 为 0.0001， 这 时 候 准 确 率 会 发 生 什 么 变化 呢 ? 具体 请 
读者 自行 修改 代码 完成 测试 。 


11.3.3 ”程序 的 重 构 一 一 模块 化 设计 


在 上 文 程序 设计 中 为 了 反应 LeNet 模型 的 基本 结构 ,在 程序 编写 时 遵循 了 “由 前 向 后 , Sk 
什么 补 什么 ”的 思路 。 结 果 可 以 看 到 ,程序 也 能 较 好 地 完成 工作 ， 达 到 模型 设计 的 目的 。 但 是 
也 可 以 看 到 ， 这 种 程序 的 设计 模式 是 非常 腾 肿 的 ， 因 此 本 小 节 将 对 程序 进行 重 构 。 

首先 可 以 看 到 ， 为 了 模型 的 正常 使 用 ， 在 图 计算 过 程 中 需要 使 用 大 量 的 权重 值 和 偏 置 量 。 
这 些 都 是 由 TensorFlow 变量 所 设置 。 而 变量 带 来 的 问题 就 是 在 每 次 图 对 话 计算 过 程 中 都 要 被 
反复 初始 化 和 赋予 新 值 ， 因 此 在 程序 的 编写 过 程 中 为 了 更 好 地 反应 模型 的 设计 问题 ， 不 在 
TensorFlow 进行 初始 化 运算 时 反复 进行 格式 化 。 


def weight variable (shape): 
initial = tf.truncated normal(shape, stddev-0.1) 
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return tf.Variable (initial) 


# 初 始 化 单个 卷 积 核 上 的 偏 置 值 

def bias variable (shape): 
initial = tf.constant(0.1, shape-shape) 
return tf.Variable (initial) 


对 于 weight variable 函数 中 ，tftruncated_normal 初始 函数 将 根据 所 得 到 的 均值 和 标准 差 
生成 一 个 随机 分 布 。 此 时 就 是 根据 传递 进来 的 矩阵 的 元 素 个 数 生成 一 个 标准 差 为 0.1 的 矩阵 。 

而 bias variable 函数 是 首先 生成 了 一 个 值 为 0.1 的 矩阵 , 之 后 将 其 强制 改变 为 TensorFlow 
的 变量 形式 ， 这 也 是 TensorFlow 图 计算 的 一 种 常用 强制 赋值 的 方法 。 

下 面 继续 对 代码 进行 分 析 。 卷 积 变化 以 及 max-pooling 也 是 最 为 常用 的 函数 ， 观 察 这 些 函 
数 可 以 知道 卷 积 使 用 的 步 长 和 边 距 都 是 相同 ， 这 样 做 的 好 处 是 为 了 保证 输入 和 输出 同样 大 小 。 
2 个 池 化 层 也 使 用 统一 的 2X2 大 小 的 模板 做 池 化 处 理 , 因此 也 可 以 将 这 2 个 步骤 抽象 成 函数 。 

def conv2d(x, W): 

return tf.nn.conv2d(x, W, strides-[1, 1, 1, 1], padding-'SAME') 


def max pool 2x2 (x): 
return tf.nn.max pool(x, ksize-[1, 2, 2, 1],strides-[1, 2, 2, 1], 

padding-'SAME') 

第 一 层 由 一 个 卷 积 接 一 个 max pooling 完成 。 卷 积 在 每 个 5X5 的 patch 中 算出 6 个 特征 。 
卷 积 的 权重 张 量 形状 是 [5, 5. 1, 6]， 前 两 个 维度 是 patch 的 大 小 ， 接 着 是 输入 的 通道 数目 ， 最 后 
是 输出 的 通道 数目 。 对 于 每 一 个 输出 通道 都 有 一 个 对 应 的 偏 置 量 ， 然 后 应 用 ReLU 激活 函数 ， 
最 后 进行 max pooling. 

W convl = weight variable([5, 5, 1, 6]) 

b convl = bias variable([6]) 

h convi = tf.nn.relu(conv2d(x image, W convl) + b convl) 

h pooll = max pool 2x2(h convl) 


为 了 构建 一 个 更 深 的 网 络 第 二 层 ， 每 个 5X5 的 patch 会 得 到 16 个 特征 。 


W conv2 = weight variable([5, 5, 6, 16]) 

b conv2 - bias variable([16]) 

h conv2 = tf.nn.relu(conv2d(h pooll, W conv2) + b conv2) 
h pool2 = max pool 2x2 (h conv2) 


此 时 经 过 2 次 卷 积 核 池 化 处 理 后 的 图 片 尺寸 减 小 到 7X7， 加 入 一 个 有 120 个 神经 元 的 全 
连接 层 ， 用 于 处 理 整个 图 片 。 而 为 了 全 连接 的 计算 ， 需 要 把 池 化 层 输出 的 张 量 reshape 成 一 些 
向 量 ， 乘 上 权重 矩阵 ， 加 上 偏 置 ， 然 后 对 其 使 用 ReLU。 


W fcl = weight variable([7*7*16,120]) 


+ 偏 置 值 
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b fcl = bias variable([120]) 

+ 将 卷 积 的 产 出 展开 

h pool2 flat = tf.reshape(h pool2, [-1, 7 * 7 * 16]) 
神经 网 络 计算 ， 并 添加 relu 激活 函数 

h fcl = tf.nn.relu(tf.matmul(h pool? flat, W fcl) + b fcl) 


W fc2 weight variable([120,10]) 
b fc2 = bias variable([10]) 

最 后 一 个 softmax 函数 用 于 计算 输出 的 数据 对 应 于 分 类 概率 的 大 小 。 
y conv = tf.nn.softmax(tf.matmul(h fcl, W fc2) + b fc2) 
以 上 就 是 重 构 之 后 的 程序 代码 ， 完 整 代码 如 程序 11-12 所 示 。 

【程序 11-12】 


import tensorflow as tf 


M 


from tensorflow.examples.tutorials.mnist import input data 
import time 
import matplotlib.pyplot as plt 


def weight variable (shape): 
initial - tf.truncated normal(shape, stddev-0.1) 


return tf.Variable(initial) 


# 初 始 化 单个 卷 积 核 上 的 偏 置 值 

def bias variable (shape): 

initial = tf.constant(0.1, shape-shape) 
return tf.Variable(initial) 


HAARE x, HERA w TERAH, strides 为 卷 积 核 移动 步 长 

#padding 表示 是 否 需 要 补 齐 边 缘 像 素 使 输出 图 像 大 小 不 变 

def conv2d(x, W): 

return tf.nn.conv2d(x, W, strides-[1, 1, 1, 1], padding-'SAME') 


# 对 x 进行 最 大 池 化 操作 ，ksize 进行 池 化 的 
def max pool 2x2 (x): 





return tf.nn.max pool(x, ksize-[1, 2, 2, 1],strides-[1, 2, 2, 1], 
padding-'SAME') 


sess = tf.InteractiveSession() 

+ 声明 输入 图 片 数 据 、 类 别 

x = tf.placeholder('float32', [None, 784]) 
y = tf.placeholder('float32', [None, 10]) 


# 输入 图 片 数据 转化 
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x image = tf.reshape(x, [-1, 28, 28, 1]) 


W convl = weight variable([5, 5, 1, 6]) 

b convi = bias variable([6]) 

h convi = tf.nn.relu(conv2d(x image, W convl) + b convl) 
h pooll = max pool 2x2(h convi) 


W conv2 = weight variable([5, 5, 6, 16]) 
b conv2 = bias variable([16]) 
h conv2 = tf.nn.relu(conv2d(h pooll, W conv2) + b conv2) 


h pool2 


max pool 2x2(h conv2) 


W fcl = weight variable([7*7*16,120]) 

+ 偏 置 值 

b fcl = bias variable([120]) 

3 将 卷 积 的 产 出 展开 

h pool2 flat = tf.reshape(h pool2, [-1, 7 * 7 * 16]) 

# 神经 网 络 计算 ， 并 添加 relu 激活 函数 

h fcl = tf.nn.relu(tf.matmul(h pool2 flat, W fcl) + b fcl) 


W fc2 = weight variable([120,10]) 
b fc2 - bias variable([10]) 
y conv = tf.nn.softmax(tf.matmul(h fcl, W fc2) + b fc2) 


# 代价 函数 
cross entropy = -tf.reduce sum(y * tf.log(y conv)) 
+ 使 用 Adam 优化 算法 来 调整 参数 


train step = tf.train.GradientDescentOptimizer(1le-4).minimize(cross entropy) 


# 测试 正确 率 
correct prediction = tf.equal(tf.argmax(y conv, 1), tf.argmax(y , 1)) 


accuracy - tf.reduce mean(tf.cast(correct prediction, "float32")) 


* 所 有 变量 进行 初始 化 


sess.run(tf.global variables initializer()) 


# 获取 mnist 数据 
mnist data set = input data.read data sets('MNIST data', one hot-True) 


coup 
3 进行 训练 
start time = time.time() 


for i in range(1000): 
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# 获取 训练 数据 


batch xs, batch ys = mnist data set.train.next batch(200) 


# 每 迭代 10 个 batch， 对 当前 训练 数据 进行 测试 ， 输 出 当前 预测 准确 率 
if i % 2 = 0: 
train accuracy = accuracy.eval(feed dict={x: batch xs, y : batch ys]) 
c.append(train accuracy) 
print("step $d, training accuracy $g" $ (i, train accuracy)) 
# 计算 间隔 时 间 
end time = time.time() 
print('time: ', (end time - start time)) 
start time — end time 
* 训练 数据 


train step.run(feed dict-(x: batch xs, y : batch ys]) 


sess.close() 

plt.plot (c) 

plt.tight layout() 
plt.savefig('cnn-tf-cifarl0-2.png', dpi-200) 


具体 结果 请 读者 自行 打印 完成 。 


11.3.4” 卷 积 核 和 隐藏 层 参 数 的 修改 

前 面 通过 调整 激活 函数 和 学 习 率 使 得 模型 的 准确 率 有 了 非常 大 的 提高 。 对 于 深度 学 习 甚 至 
于 机 器 学 习 来 说 , 调节 参数 是 必须 掌握 的 模型 构建 技能 。 除 此 之 外 ,深度 学 习 中 有 不 同 的 隐藏 
层 和 每 层 包含 的 神经 元 , 通过 调节 这 些 神经 元 和 隐藏 层 的 数目 , 也 可 以 改善 神经 网 络 模型 的 设 
计 。 

程序 11-13 修改 了 每 个 隐藏 层 中 神经 元 的 数目 ， 即 第 一 次 生成 了 32 个 通道 的 卷 积 层 ， 第 
二 层 为 64， 而 在 全 连接 阶段 使 用 了 1024 个 神经 元 作为 学 习 参 数 。 程 序 代码 如 下 : 


【程序 11-13】 
import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 
import time 
import matplotlib.pyplot as plt 


def weight variable (shape): 
initial = tf.truncated normal(shape, stddev-0.1) 


return tf.Variable(initial) 


# 初 始 化 单个 卷 积 核 上 的 偏 置 值 
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def bias variable (shape): 


initial = tf.constant(0.1, shape-shape) 
return tf.Variable (initial) 


# 输 入 特征 x HER W TERR, strides 为 卷 积 核 移动 步 长 
Fpadding 表示 是 否 需要 补 齐 边缘 像素 使 输出 图 像 大 小 不 变 
def conv2d(x, W): 
return tf.nn.conv2d(x, W, strides-[1, 1, 1, 1], padding-'SAME') 


# 对 zx 进行 最 大 池 化 操作 ，ksize 进行 池 化 的 范围 ， 
def max pool 2x2 (x): 
return tf.nn.max pool(x, ksize-[1, 2, 2, 1],strides-[1l, 2, 2, 1], 
padding-'SAME') 


sess = tf.InteractiveSession() 

# 声明 输入 图 片 数 据 、 类 别 

X = tf.placeholder('float32', [None, 784]) 
y = tf.placeholder('float32', [None, 10]) 
+ 输入 图 片 数据 转化 

Xx image = tf.reshape(x, [-1, 28, 28, 1]) 


W convl = weight variable([5, 5, 1, 32]) 

b convl = bias variable([32]) 

h convi = tf.nn.relu(conv2d(x image, W convl) + b convl) 
h pooll = max pool 2x2(h convl) 


W conv2 = weight variable([5, 5, 32, 64]) 
b conv2 = bias variable([64]) 
h conv2 = tf.nn.relu(conv2d(h pooll, W conv2) + b conv2) 


h pool2 = max pool 2x2 (h conv2) 


W fcl = weight variable([7*7*64,1024]) 

+ 偏 置 值 

b fcl = bias variable([1024]) 

+ 将 卷 积 的 产 出 展开 

h pool2 flat - tf.reshape(h pool2, [-1, 7 * 7 * 64]) 

# 神经 网 络 计算 ， 并 添加 relu 激活 函数 

h fcl = tf.nn.relu(tf.matmul(h pool2 flat, W fcl) + b fcl) 


W fc2 = weight variable([1024,10]) 
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b fc2 = bias variable([10]) 


y conv = tf.nn.softmax(tf.matmul(h fcl, W fc2) + b fc2) 


代价 函数 
cross entropy = -tf.reduce sum(y * tf.log(y conv)) 
+ 使 用 Adam 优化 算法 来 调整 参数 


train step = tf.train.GradientDescentOptimizer(le-4).minimize(cross entropy) 


# 测试 正确 率 
correct prediction = tf.equal(tf.argmax(y conv, 1), tf.argmax(y , 1)) 


accuracy = tf.reduce mean(tf.cast(correct prediction, "float32")) 


+ 所 有 变量 进行 初始 化 


sess.run(tf.global variables initializer()) 


+ 获取 mnist 数据 
mnist data set = input data.read data sets('MNIST data', one hot-True) 
| 


# 进行 训练 
start time = time.time() 
for i in range(1000): 
# 获取 训练 数据 
batch xs, batch ys = mnist data set.train.next batch(200) 


# 每 迭代 10 个 batch， 对 当前 训练 数据 进行 测试 ， 输 出 当前 预测 准确 率 
if i $ 2 = 0: 
train accuracy - accuracy.eval(feed dict-(x: batch xs, y : batch ys]) 
c.append(train accuracy) 
print("step $d, training accuracy $g" $ (i, train accuracy)) 
# 计算 间隔 时 间 
end time = time.time() 
print('time: ', (end time - start time)) 
start time = end time 
+ 训练 数据 


train step.run(feed dict-(x: batch xs, y : batch ys]) 


sess.close() 

plt.plot (c) 

plt.tight layout () 
plt.savefig('cnn-tf-cifarl0-1.png', dpi-200) 


将 其 结果 与 程序 11-12 的 结果 进行 比较 ， 如 图 11-20 所 示 。 
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11-20 ” 卷 积 核 变化 时 准确 率 变化 图 


左边 是 程序 11-12 的 准确 率 变化 图 ， 而 右边 是 程序 11-13 的 准确 率 变化 图 ， 可 以 看 到 ， 随 
着 卷 积 核 数 目的 增加 ,准确 率 上 升 的 速度 也 非常 快 , 而 且 相对 于 卷 积 核 较 少 的 图 来 说 ,此 时 的 
曲线 波动 也 较 少 ， 即 准确 率 在 一 个 较 小 的 范围 内 浮动 ， 这 是 模型 构建 所 需要 的 。 

此 时 再 换 一 个 思路 ， 如 果 将 全 连接 层 的 数目 增加 一 层 ， 那 么 对 准确 率 的 影响 会 如 何 ? 


【程序 11-14】 
import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 
import time 
import matplotlib.pyplot as plt 


def weight variable (shape): 
initial = tf.truncated normal(shape, stddev-0.1) 
return tf.Variable(initial) 


# 初 始 化 单个 卷 积 核 上 的 偏 置 值 
def bias variable (shape): 
initial = tf.constant(0.1, shape-shape) 


return tf.Variable(initial) 


# 输 入 特征 x， 用 卷 积 核 由 进行 卷 积 运算 ，strides 为 卷 积 核 移动 步 长 
#padding 表示 是 否 需 要 补 齐 边 缘 像 素 使 输出 图 像 大 小 不 变 
def conv2d(x, W): 
return tf.nn.conv2d(x, W, strides-[1, 1, 1, 1], padding-'SAME') 


# 对 工 进行 最 大 池 化 操作 ，ksize 进行 池 化 的 范围 ， 
def max pool 2x2 (X) : 
return tf.nn.max pool(x, ksize-[1, 2, 2, 1],strides-[1, 2, 2, 1], 
padding-'SAME!) 


sess = tf.InteractiveSession() 
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# 声明 输入 图 片 数据 、 类 别 

x = tf.placeholder('float32', [None, 784]) 
y = tf.placeholder('float32', [None, 10]) 
输入 图 片 数据 转化 

x image = tf.reshape(x, [-1, 28, 28, 1]) 


W convl = weight variable([5, 5, 1, 32]) 
b convl = bias variable([32]) 
h convi = tf.nn.relu(conv2d(x image, W convl) + b convi) 


h pooll = max pool 2x2(h conv1) 


W conv2 = weight variable([5, 5, 32, 64]) 

b conv2 = bias variable([64]) 

h conv2 = tf.nn.relu(conv2d(h pooll, W conv2) + b conv2) 
h pool2 - max pool 2x2(h conv2) 


W fcl = weight variable([7*7*64,1024]) 

+ 偏 置 值 

b fcl = bias variable([1024]) 

3 将 卷 积 的 产 出 展开 

h pool2 flat = tf.reshape(h pool2, [-1, 7 * 7 * 64]) 

+ 神经 网 络 计算 ， 并 添加 relu 激活 函数 

h fcl = tf.nn.relu(tf.matmul(h pool2 flat, W fcl) + b fcl) 


W fc2 = weight variable([1024,128]) 
b fc2 = bias variable([128]) 
h fc2 - tf.nn.relu(tf.matmul(h fcl, W fc2) * b fc2) 


W fc3 = weight variable([128,10]) 

b fc3 = bias variable([10]) 

y conv = tf.nn.softmax(tf.matmul(h fc2, W fc3) + b fc3) 
+ 代价 函数 


cross entropy = -tf.reduce sum(y * tf.log(y conv)) 
+ 使 用 adam 优化 算法 来 调整 参数 


train step = tf.train.GradientDescentOptimizer(1e-5).minimize(cross entropy) 


# 测试 正确 率 
correct prediction = tf.equal(tf.argmax(y conv, 1), tf.argmax(y , 1)) 
accuracy = tf.reduce mean(tf.cast(correct prediction, "float32")) 


# 所 有 变量 进行 初始 化 


sess.run(tf.global variables initializer()) 
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+ 获取 mnist 数据 
mist data set = input data.read data sets('MNIST data', one hot-True) 
CEAN 


进行 训练 
start time = time.time() 
for i in range(1000): 

# 获取 训练 数据 


batch xs, batch ys = mnist_data_set.train.next_batch (200) 


* 每 迭代 10 个 batch， 对 当前 训练 数据 进行 测试 ， 输 出 当前 预测 准确 率 
if i $ 2 = 0: 
train accuracy = accuracy.eval(feed dict-([x: batch xs, y : batch ys}) 
c.append(train accuracy) 
print("step $d, training accuracy $g" $ (i, train accuracy)) 
# 计算 间隔 时 间 
end time = time.time() 
print('time: ', (end time - start time)) 
start time — end time 
+ 训练 数据 


train step.run (feed dict-(x: batch xs, y : batch ys]) 


sess.close() 

plt.plot (c) 

plt.tight layout() 
plt.savefig('cnn-tf-cifarl0-11.png', dpi-200) 


程序 11-14 中 增加 了 一 个 全 连接 层 ， 即 在 原 有 的 全 连接 1024 个 神经 元 参数 之 后 又 新 加 入 
—^ 128 数目 的 神经 元 隐藏 层 ， 可 以 看 到 结果 如 图 11-21 所 示 。 




















图 11-21 全 连接 层 变 化 时 准确 率 变化 图 


此 时 可 以 看 到 , 增多 了 全 连接 层 的 个 数 ， 反 而 使 得 准确 率 上 升 缓慢 ， 并 且 准 确 率 的 波动 幅 
度 也 变 得 更 大 ， 因 此 可 以 说 这 个 增加 相对 于 原 有 模型 来 说 是 失败 的 。 
还 有 一 种 变化 的 方法 就 是 修改 卷 积 层 和 池 化 层 的 数目 ， 这 一 点 请 读者 自行 完成 并 验证 。 
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11.4. 本 章 小 结 


本 章 主 要 介绍 了 卷 积 神经 网 络 的 基本 结构 和 模型 的 搭建 .首先 介绍 了 其 中 最 重要 的 2 个 基 
本 理念 一 一 卷 积 和 池 化 。 在 卷 积 和 池 化 中 主要 介绍 了 这 2 个 理论 的 基本 原理 和 实现 方法 , 并 使 
用 Python 对 其 进行 了 程序 设计 以 及 使 用 TensorFlow 自 带 的 函数 对 其 进行 处 理 。TensorFlow Él 
带 的 卷 积 和 池 化 函数 ， 在 卷 积 神经 网 络 中 使 用 得 非常 频繁 。 

LeNet 结构 是 最 经 典 的 卷 积 神经 网 络 结构 ， 我 们 使 用 这 个 模型 创建 了 第 一 个 TensorFlow 
程序 。 从 结果 上 来 看 ， 这 个 最 经 典 的 模型 可 以 达到 99% 的 识别 率 ， 这 是 非常 好 的 结果 。 

为 了 给 卷 积 神经 网 络 的 应 用 打下 基础 , 这 里 对 卷 积 神经 网 络 的 参数 做 了 多 次 修改 , 从 修改 
后 的 结果 上 来 看 , 卷 积 神经 网 络 在 模型 被 设计 出 来 以 后 , 更 多 要 做 的 工作 是 参数 的 调整 ( 调 参 )， 
这 些 都 是 在 后 面 的 学 习 中 需要 掌握 的 内 容 。 

本 章 主 要 介绍 这 些 基本 内 容 , 但 是 没有 涉及 卷 积 计算 和 池 化 计算 的 推导 , 这 个 也 是 非常 重 
要 的 内 容 。 在 下 一 章 中 作者 将 对 它们 进行 公式 演示 和 推导 ,由 于 推导 过 程 过 于 复杂 ， 这 里 不 要 
求 读者 掌握 ， 仅 供 感 兴趣 的 读者 参考 。 
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卷 积 神经 网 络 公 邢 的 推导 与 应 用 


前 一 章 对 卷 积 的 基础 概念 和 理论 做 了 一 个 介绍 ， 主 要 通过 讲解 和 图 示 的 形式 对 其 做 出 说 
明 , 并 使 用 Python 语言 和 TensorFlow 框架 实现 了 卷 积 和 池 化 的 运算 。 但 是 在 卷 积 神经 网 络 中 ， 
卷 积 和 池 化 的 运用 仅仅 是 卷 积 神经 网 络 前 向 传播 的 一 个 方面 , 它 与 反馈 神经 网 络 一 样 , 对 于 其 
中 权重 的 更 新 才 是 真正 的 重点 。 

在 本 章 中 ， 我 们 将 首先 复习 在 反馈 神经 网 络 中 的 BP 算法 ,之 后 使 用 数学 方法 推导 卷 积 神 
经 网 络 中 的 卷 积 层 权 重 更 新 的 方法 ， 这 也 是 卷 积 神经 网 络 最 为 核心 的 内 容 。 

本 章 将 使 用 大 量 的 数学 公式 , 仅 供 有 基础 、 有 能 力 以 及 有 意愿 的 读者 学 习 ， 其 他 读者 可 以 
直接 略 过 本 章 内 容 ， 并 不 影响 对 后 续 内 容 的 学 习 。 


反馈 神经 网 络 算法 


-个 典型 的 卷 积 神经 网 络 , 如 前 面 使 用 的 LeNet 函数 所 看 到 的 , 开始 阶段 都 是 卷 积 层 以 及 
池 化 层 的 相互 交 蔡 使 用 , 之 后 采用 全 连接 层 将 卷 积 和 池 化 后 的 结果 特征 全 部 提取 出 来 , 进行 概 
率 计算 处 理 。 

在 具体 的 误差 反馈 和 权重 更 新 的 处 理 上 , 不 论 是 全 连接 层 的 更 新 还 是 卷 积 层 的 更 新 , 使 用 
的 都 是 经 典 的 反馈 神经 网 络 算法 , 这 种 方法 将 原本 较为 复杂 的 、 要 考虑 长 期 的 链 式 法 则 转化 为 
只 需要 考虑 前 后 节点 输入 和 输出 误差 对 权重 的 影响 ,使 得 当 神经 网 络 深度 加 大 时 能 够 利用 计算 
机 计算 ， 以 及 卷 积 核 在 计算 过 程 中 产生 非常 多 的 数据 计算 。 

为 了 强调 重要 性 ， 作 者 在 这 里 引入 一 个 参数 8, ， 称 为 敏感 度 。 敏 感度 的 定义 是 ， 当 前 输 
出 层 的 误差 对 该 层 的 输入 的 偏 导数 。 请 读者 一 定 牢记 这 个 参数 名 和 定义 。 




















12.1.1. 经 典 反馈 神经 网 络 正 向 与 反 向 传播 公式 推导 


前 面 已 经 说 到 , 经 典 的 反馈 神经 网 络 主要 包括 3 个 部 分 : 数据 的 前 向 计算 、 误 差 的 反 向 传 
播 以 及 权重 的 更 新 ， 其 具体 使 用 说 明 如 下 。 
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1. 前 向 传播 算法 
对 于 前 向 传播 的 值 传递 ， 隐 藏 层 输出 值 定义 如 下 : 
d =E xX, 
b? =a 
Hp Y EAR ARRA, LÀ ERRER AE, a 是 输出 值 。/ 是 当前 阶段 
的 激活 函数 ， 2 为 当年 节点 的 输入 值 经 过 计算 后 被 激活 的 值 。 
对 于 输出 层 ， 定 义 如 下 : 
a = A x b? 


其 中 万 ;为 输入 的 权重 ，b 和 2 为 输入 到 输出 节点 的 输入 值 。 这 里 对 所 有 输入 值 进行 权重 计 
算 后 求 得 和 值 ， 作 为 神经 网 络 的 最 后 输出 值 a 。 
2. 反 向 传播 算法 
与 前 向 传播 类 似 ， 首 先 定义 两 个 值 6, 与 5 名 : 
ôL 





ô = — = -T 
= 人 
ôL 
6 = 3 


其 中 6, 为 输出 层 的 误差 项 ， 其 计算 值 为 真实 值 与 模型 计算 值 之 间 的 差 值 。Y 是 计算 值 ，7 
是 输出 真实 值 。54 为 输出 层 的 误差 。 








dm 对 于 6, 与 6? 来 说 ,无 论 定义 在 哪个 位 置 ， 都 可 以 看 作 当前 的 输出 值 对 输入 值 的 梯度 计 


i 算 。 

从 前 面 的 分 析 可 以 看 到 ， 所 谓 的 神经 网 络 反馈 算法 ， 就 是 逐 层 地 将 最 终 误差 进行 分 解 ， 
即 每 一 层 只 与 下 一 层 打交道 (如 图 12-1 所 示 ) 。 有 鉴于 此 ， 可 以 假设 每 一 层 均 为 输出 层 的 前 
一 个 层级 ， 通 过 计算 前 一 个 层级 与 输出 层 的 误差 得 到 权重 的 更 新 。 
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图 12-1 权重 的 逐 层 反 向 传导 














因此 反馈 神经 网 络 计 算 公 式 定义 为 
H ôL 
五 7 ôa”! 
h 
| ôL | ob 
"Ob ða” 
ôL ; 
^g. 
OL ô ; 
m up um 
k h 


8, x X E, x £' (P) 
-XEN Xó xf'(ap) 
即 当前 层 输 出 值 对 误差 的 梯度 可 以 通过 下 一 层 的 误差 与 权重 和 输入 值 的 梯度 乘积 获得 。 
AY, x 5，x £' GP) 8, 若 为 输出 层 , 则 可 以 通过 5，= 一 = (Y - 刀 求 得 ; 而 


k 


ó, 为 非 输出 层 时 ， 则 可 以 使 用 逐 层 反馈 的 方式 求 得 5 的 值 。 











dm 这 里 千 万 要 注意 ， 对 于 6， 与 6 来 说 ， 其 计算 结果 都 是 当前 的 输出 值 对 输入 值 的 梯度 计 
[ 算 ， 是 权重 更 新 过 程 中 一 个 非常 重要 的 数据 计算 内 容 。 








或 者 换 一 种 表述 形式 将 上 面 公式 表示 为 
8! = IW} x 6 x f? (a!) 
可 以 看 到 ， 通 过 更 为 泛 化 的 公式 ， 把 当前 层 的 输出 对 输入 的 梯度 计算 转化 成 求 下 一 个 层 
级 的 梯度 计算 值 。 
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3. 权重 的 更 新 
反馈 神经 网 络 计算 的 目的 是 对 权重 的 更 新 , 因此 与 梯度 下 降 算法 类 似 , 其 更 新 可 以 仿照 梯 
度 下 降 对 权 值 的 更 新 公式 : 

60-8-a(f(0)-»)x, 
Bp: 

W,-W,caxà;xXy 

b, -b,*axó 

Kep ji RRISE RRI pL AG, 通过 对 6; 的 计算 ， 就 可 以 更 新 对 应 的 权重 值 。 


12.1.2 ” 卷 积 神经 网 络 正 向 与 反 向 传播 公式 推导 


前 面 已 经 说 到 , 经 典 的 反馈 神经 网 络 主要 包括 3 个 部 分 ， 数 据 的 前 向 计算 、 误 差 的 反 向 传 
播 以 及 权重 的 更 新 ， 过 程 如 图 12-2 所 示 。 





图 12-2 ”权重 的 逐 层 反 向 传导 


可 以 看 到 每 个 层 1 (假设 是 卷 积 或 者 池 化 层 的 一 种 ) 都 会 接 一 个 下 采样 层 +1。 对 于 反馈 
神经 网 络 来 说 ， 要 想 求 得 层 1 的 每 个 神经 元 对 应 的 权 值 更 新 ， 就 需要 先 求 层 1 的 每 一 个 神经 节 
点 的 灵敏 度 6, 。 但 是 简单 来 看 ， 这 里 总 体 只 有 以 下 几 个 权重 以 及 数值 需要 在 传递 的 过 程 中 进 
行 计算 ， 即 : 

@ 输入 层 - 卷 积 层 

e ”着 积 层 - 池 化 层 

@。” 池 化 层 -全 连接 层 

e “全 连接 层 -输出 层 

这 是 正 向 的 计算 。 当 权重 更 新 时 ， 需 要 对 其 进行 反 向 更 新 ， 即 更 新 如 下 : 
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输出 层 - 全 连接 层 
全 连接 层 - 池 化 层 
池 化 层 - 卷 积 层 
© 卷 积 层 -输入 层 
相对 于 反馈 神经 网 络 ， 卷 积 神经 网 络 在 整个 模型 的 构成 上 是 分 解 成 若干 个 小 的 步骤 进 
行 ， 因 此 对 其 进行 求 导 更 新 计算 最 好 的 方法 也 是 逐步 对 其 进行 计算 。 
首先 需要 设 定 的 是 损失 函数 ， 在 前 面 的 例子 中 ， 由 于 采用 的 是 one-hot 方法 ， 因 此 在 对 输 
出 层 进行 误差 计算 时 采用 的 是 交叉 焙 的 函数 ， 公 式 如 下 : 
Loss = -y log(f(x)) 
这 个 是 最 基本 的 ， 下 面 开 始 将 依次 由 输出 到 输入 分 阶段 解读 权重 更 新 的 方法 与 公式 。 
1. 输出 层 反馈 到 全 连接 层 的 反 向 求 导 
首先 对 于 输出 层 来 说 ， 损 失 函 数 是 由 上 面 的 交叉 炉 函数 作为 计算 。 由 于 one-hot 方法 大 多 
数 的 值 为 0， 而 仅仅 有 1 个 值 为 1， 首先 求 得 的 交叉 炉 为 : 
Loss(f(x), y) = -> y log(f(x)) 
= -(0 x log(f(x) + 0 x log(£(x,)... 
+ x log(f(x, 1) + 0 x log(f(x,)) 
= —log(f(x,)) 
即 对 于 大 多 数 的 0 值 乘 以 任何 数 都 为 0， 留 下 的 是 值 为 1 与 所 计算 的 那个 真实 值 对 应 的 乘 
积 ， 如 图 12-3 所 示 。 


EEEEEEEEEE 
0000000000 


图 12-3 损失 函数 的 计算 
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使 用 此 种 规则 可 以 得 到 此 时 的 损失 值 为 
Loss = -(y — log(f(x)) 


其 中 ? 为 真实 的 样本 等 于 1 的 那个 值 ，1og (f(x) ) 为 模型 计算 出 的 交叉 炳 的 值 ， 其 差 值 
为 所 求 得 误差 额度 。 简 化 一 下 ， 由 于 y 在 one-hot 中 始终 为 1， 而 为 0 的 值 不 参与 计算 ， 因 此 
可 以 得 到 : 


Loss = —(1 - log (f(x)) 


由 上 述 公式 可 以 知道 ， 如 果 最 终 的 输出 层 采 用 的 是 softmax, JI ZOSET ZR ECKTTE EUR 
的 形式 去 计算 损失 函数 ， 最 后 一 层 的 误差 敏感 度 就 是 卷 积 神经 网 络 模型 输出 值 与 真实 值 之 间 
的 差 值 。 

那么 根据 损失 函数 对 权 值 的 偏 导数 ， 可 以 求 得 在 全 连接 层 权 重 更 新 的 计算 公式 为 : 





Oloss __ 10 Fils Fla)’ ar 
OW m 
HP RRG WA 1-1 层 到 1 层 之 间 的 权重 。 
输出 层 的 偏 置 倒数 为 : 
OLoss 


=- 
T zt fo) 


这 里 的 计算 方法 和 经 典 的 反馈 神经 网 络 相 类 似 ， 就 不 做 过 多 的 解释 了 。 
2. 当 池 化 层 反馈 到 卷 积 层 的 反 向 求 导 
从 正 向 来 看 ， 假 设 1 (为 小 写 的 工 ) 层 为 卷 积 层 ， 而 1+1 层 为 池 化 层 ， 如 图 12-4 所 示 。 





图 12-4 ” 卷 积 层 到 池 化 层 


此 时 假设 : 
池 化 层 的 敏感 度 为 ， 5 
卷 积 层 的 敏感 度 为 。 5 


则 两 者 的 关系 可 以 近似 地 表达 为 : 


211 





OpenCV+TensorFlow 深度 学 习 与 计算 机 视 


ól- pool(87) * ha)’ 


E 


这 里 的 * 表 示 的 是 均值 的 点 对 点 乘 ， 即 对 应 位 置 元 素 的 乘积 。 

对 于 池 化 层 vel 中 的 每 个 节点 元 素 是 由 卷 积 层 1 中 多 个 节点 共同 计算 得 到 ， 因 此 1+1 层 的 
敏感 度 也 是 由 1 层 中 的 敏感 度 共同 产生 的 。 

假设 卷 积 层 1 的 大 小 为 4X4， 使 用 的 池 化 区 域 大 小 为 2X2， 经 过 计算 得 到 的 池 化 层 的 大 
小 为 2X2， 如 果 此 时 池 化 层 的 敏感 度 误差 为 : 





如 果 按 照 此 时 是 mean-pooling 方法 进行 反馈 运算 ， 那 么 首先 需要 将 1+1 池 化 层 扩展 到 1 层 
大 小 ， 即 卷 积 层 的 4X4 大 小 ， 并 且 使 其 值 为 等 值 分 布 ， 如 图 12-5 所 示 。 





12-5 池 化 层 敏 感度 的 均值 化 


同时 对 于 mean-pooling 方法 ， 为 了 保证 在 反 向 传播 时 各 层 之 间 的 误差 总 和 不 变 ， 因 此 在 
扩展 re 池 化 层 之 外 ， 还 需要 对 池 化 层 中 每 个 值 进行 平 摊 处 理 。 最 后 的 结果 如 图 12-5 的 右 侧 
所 示 。 

如 果 I+1 池 化 层 是 max-pooling， 那 么 在 前 向 计算 时 就 需要 记录 相对 应 的 最 大 值 位 置 ， 这 
里 假设 之 后 的 池 化 层 最 大 值 位 置 ， 如 图 12-6 所 示 。 





图 12-6  max-pooling 池 化 层 的 反馈 
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3. 当 卷 积 层 反馈 到 池 化 层 的 反 向 求 导 
当 1 层 为 池 化 层 ， 而 1+1 层 为 卷 积 层 时 ， 如 图 12-7 所 示 。 


图 12-7 卷 积 层 反 馈 到 池 化 层 的 反 向 求 导 


假设 第 1 层 池 化 层 有 n 个 通道 ， 即 有 n 张 特征 图 ([width,height,n]) 。 而 H 卷 积 层 中 有 m 
个 特征 值 。 此 时 ， 如 果 1 层 池 化 层 中 每 个 通道 都 有 其 对 应 的 敏感 度 误差 ， 那 么 其 计算 依据 为 
1+1 层 卷 积 层 中 所 有 卷 积 核 元 素 的 敏感 度 之 和 公式 为 : 

6 = EED O Ky 

其 中 四 是 矩阵 的 卷 积 操作 ， 但 是 不 同 于 卷 积 层 前 向 传播 时 的 相关 度 计 算 。 求 1 层 池 化 层 
对 1+1 层 的 敏感 度 是 全 卷 积 操作 。 

使 用 一 个 简单 的 例子 进行 说 明 ， 第 1 层 池 化 层 某 3X3 大 小 的 通道 图 ， 如 果 第 I+1 卷 积 层 
有 2 个 卷 积 核 ， 核 大 小 为 2X2， 那 么 在 前 向 传播 结束 后 会 生成 2 个 大 小 为 2X2 的 卷 积 图 。 

图 12-8 是 池 化 层 反馈 到 卷 积 层 的 反 向 求 导 ， 需 要 注意 的 是 图 中 的 卷 积 层 中 的 数据 并 不 是 
卷 积 计算 的 结果 ， 而 是 卷 积 层 的 敏感 度 。 


卷 积 核 
-—Q 


卷 积 层 
BRER 


图 12-8 池 化 层 反馈 到 卷 积 层 的 反 向 求 导 
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D 








之 后 开始 进行 重新 卷 积 计 算 ， 这 里 计算 方法 就 是 先 将 卷 积 层 敏感 度 padding 后 ， 采 用 full 
模式 重新 扩充 为 4X4 大 小 ， 如 图 12-9 所 示 。 


ERE 
e 


| 
i MAI 


12-9 ” 卷 积 核 敏感 度 的 padding 操作 
之 后 根据 扩充 后 的 1+1 层 卷 积 层 敏感 度 和 对 应 的 卷 积 核 重新 计算 1 层 池 化 层 的 敏感 度 ， 如 


图 12-10 所 示 。 
DM d 









"rre DOES 
aad 


图 12-10 重新 计算 的 敏感 度 


图 12-10 中 需要 注意 的 是 ， 这 里 是 星 乘 卷 积 的 计算 ， 即 要 把 卷 积 核 翻转 180 度 与 padding 
后 的 池 化 层 进行 卷 积 计算 。 
最 后 是 1 层 池 化 层 敏感 度 的 计算 ， 即 前 面 公式 的 最 终结 果 : 


214 





第 12 章 ” 卷 积 神经 网 络 公式 的 推导 与 应 用 


8 = (0) @ AK, 
用 图 形 表示 如 图 12-11 所 示 。 





图 12-11 最 终 池 化 层 敏感 度 的 计算 


这 样 即 求 得 了 卷 积 层 1+1 反馈 到 池 化 层 1 层 的 敏感 度 。 
从 本 质 上 来 说 ， 这 里 还 是 反馈 神经 网 络 的 计算 ， 即 : 


8; = 2560709 K 
1 层 的 敏感 度 等 于 第 I+1 层 的 敏感 度 乘 以 两 者 之 间 的 权重 再 求 和 。 只 不 过 这 里 的 权 值 被 改 
为 卷 积 核 ， 且 在 计算 过 程 中 有 大 量 重合 。 
4. 通过 计算 得 到 的 敏感 度 更 新 卷 积 神经 网 络 中 的 权重 
前 面 已 经 计算 了 在 卷 积 神经 网 络 中 所 有 出 现 的 层 中 的 敏感 度 ， 对 于 卷 积 神经 网 络 来 说 ， 
其 中 特殊 的 也 就 是 卷 积 层 和 池 化 层 的 权重 更 新 比较 难以 计算 ， 而 这 些 层 的 计算 可 以 通过 权重 
所 连接 的 前 后 节点 的 敏感 度 计算 得 到 。 因 此 ， 最 后 一 步 就 是 通过 敏感 度 对 权重 进行 更 新 。 


由 前 面 的 反 向 反馈 网 络 可 以 知道 ， 对 于 任何 一 个 神经 网 络 都 可 以 通过 1 层 和 第 1+1 层 的 输 
入 值 和 敏感 度 求 得 其 权 值 和 偏 置 的 偏 导数 。 





OLoss Br 
xt 
OW. J; X; © J 
1J 
OLoss - Z (359) 
Ob,, 7 


其 中 的 表示 的 是 矩阵 相 乘 之 间 的 操作 。 
举例 来 说 ， 对 于 已 有 的 1 层 输入 数据 值 为 : 
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而 与 其 相连 的 1+1 层 敏 感度 为 3X3 矩阵 : 


通过 输入 值 与 敏感 度 乘积 的 计算 可 以 得 到 : 








此 时 需要 注意 的 是 : 在 卷 积 运算 的 过 程 中 ，3 X3 的 敏感 度 是 先 翻转 之 后 再 进行 卷 积 计算 。 
对 于 偏 置 值 的 计算 : 


OLoss is 
E F i 
» 295 


根据 公式 可 以 知道 ， 偏 置 值 的 倒数 为 1-1 层 敏 感度 之 和 ， 即 为 : 





OLoss un 
y GU) 


—0.34-0.6-0.3-14-241-40.8«41.6 4 0.8 
= 8.4 
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12.2 使 用 卷 积 神经 网 络 分 辨 IFAR-10 数据 集 


在 前 面 的 介绍 中 , 使 用 卷 积 神经 网 络 对 MNIST 数据 集 做 了 一 个 介绍 。 MNIST 数据 集 是 手 
写 数 字 的 识别 库 ， 使 用 卷 积 神经 网 络 对 其 进行 分 辩 和 处 理 是 一 种 很 好 的 商业 应 用 。 


然而 MNIST 仅 限 于 对 手写 数字 的 识别 ， 而 且 手写 数字 相对 于 自然 物体 和 图 片 非 常 简单 ， 
也 缺少 相应 的 噪声 和 变换 。 


本 节 将 使 用 卷 积 神经 网 络 对 CIFAR-10 数据 集 进行 验证 ， 同 时 会 比较 不 同 参数 作用 下 ， 卷 
积 神经 网 络 对 准确 率 产生 的 影响 。 


12.2.1 CIFAR-10 数据 集 下 载 与 介绍 


CIFAR-10 是 由 神经 网 络 的 先驱 和 大 师 Hinton 的 两 名 学 生 Alex Krizhevsky fll Ilya Sutskever 
整理 的 一 个 基于 现实 物体 , 通过 所 拍摄 的 照片 进行 物体 识别 的 数据 集 。 这 个 数据 集 项 目 是 为 了 
推广 和 加 速 深度 学 习 应 用 所 创建 的 。 目 前 这 个 项 目 在 加 拿 大 政府 和 Cifar 研究 所 的 资金 支持 以 
及 号 召 下 集结 了 不 少 计算 机 科学 家 、 生 物 学 家 、 电 气 工程 师 、 神 经 科学 家 、 物 理学 家 、 心 理学 
家 ， 加 速 推动 了 深度 学 习 的 应 用 进程 。 

CIFAR-10 的 官网 链接 为 http://www.cs.toronto.edu/~kriz/cifar.html， 页 面 如 图 12-12 所 示 。 









OT a wwe 


aw 0'. e90175-X4 
Back to Alex Krizi 





kr's hone page 


The CIFAR-10 end CIFAR-100 are labeled subsets of the 50 million tiny ineges deteset. They were collected by Alex Krizhevsky, Vinod Nair, and Geoffrey 
Hinton. 
The CIFAR-10 dataset 


The CIFAR-10 d 10000 te; 


automobile 


bird 








图 12-12 The CIFAR-10 网 站 
从 网 站 首页 可 以 看 到 ， 这 里 提供 了 10 个 分 类 的 现实 物体 的 照片 (如 图 12-13 所 示 ) ， 与 


前 面 所 讲 的 成 熟 的 人 工 手 写 识 别 相 比 ， 现 实物 体 识别 挑战 巨大 ， 而 且 图 片 数 据 中 含有 大 量 特 
征 与 噪声 ， 识 别 物体 比例 不 一 ， 也 加 大 了 识别 的 难度 ， 使 其 非常 具有 挑战 性 。 
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12-13 The CIFAR-10 数据 分 类 
本 小 节 将 要 使 用 的 CIFAR-10 版 本 如 图 12-14 所 示 。 





If you're going to use this dataset, please cite the tech report at the bottom of this page. 
Version Size md5sum 
CIFAR-10 dide version 163 NB. €581301081718192721af3b05e74349a 


b 175 Nb 70270af85842c9e89bb428ec9976c926 
FAR- 10 Seem version ESA for C programs) 162 MB c32ald4ab5d03f1284b67883e8d87530 





12-14 The CIFAR-10 下 载 版 本 


在 本 例 中 将 使 用 TensorFlow 提供 的 数据 打开 方式 去 读 取 数 据 集 ， 因 此 建议 读者 下 载 适 用 
语言 版 本 的 数据 集 ， 打 开 后 如 图 12-15 所 示 。 


difar-10-batches-bin 





图 12-15 The CIFAR-10 下 载 的 数据 包 
直接 下 载 的 数据 包 如 图 12-15 所 示 ， 之 后 将 其 使 用 winrar 再 一 次 打开 ， 得 到 数据 集 如 图 
12-16 所 示 。 
最 终 建立 的 数据 文件 夹 的 层次 如 图 12-17 所 示 。 
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|" Ml cnn-tensorflow-cifar10 D:\workspace\cnn-tensorflow-cifal 
Y M cfarl0-dataset 

Pbatches.meta 
? data batch 1 
5 data batch 2 
? data batch 3 
? data batch 4 

= data batch 5 
5 test batch 

六 cnn-TensorFlow-cifar10.py 


12-16 打开 CIFAR-10 的 数据 包 12-17 CIFAR-10 数据 包 存放 层次 


如 图 12-17 所 示 ， 将 CIFAR-10 的 数据 包 放 在 独立 的 文件 夹 下 ， 便 于 所 写 的 程序 进行 读 写 
操作 。 








batches metabtt ^ data batch Tbin data batch 2bin ^ date batch 3bin 


data batch 4bin — data batch bin readme html test, batchbin 





12.22 CIFAR-10 模型 的 构建 与 数据 处 理 


首先 是 关于 模型 的 设计 ， 根 据 上 一 章 中 对 MNIST 模型 进行 设计 并 参考 已 取得 较 好 效果 的 
模型 ， 可 以 设计 的 模型 如 图 12-18 所 示 。 





图 12-18 ”CIFAR-10 数据 模型 图 示 


在 这 个 模型 中 ， 首 先是 数据 集 之 后 接 2 个 卷 积 层 作为 特征 提取 的 通道 ， 卷 积 层 包含 池 化 
层 与 区 域 归 一 层 ， 加 入 这 些 层 的 目的 是 为 了 能 够 在 特征 提取 时 ， 保 证 提取 出 能 够 充分 反映 出 
图 形 质 量 的 数据 。 最 后 跟随 的 2 个 全 连接 层 起 到 一 个 “分 类 器 ”的 作用 ， 将 所 提取 的 特征 映 
射 到 相应 的 空间 。 

此 外 还 有 一 些 细节 我 们 在 模型 使 用 时 会 详细 介绍 。 
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图 12-19 所 示 的 是 网 页 中 对 CIFAR-10 数据 集 的 数据 结构 介绍 。 


Loaded in this way, each of the batch files contains a dictionary with th 






folloving elements: 










* data — a 1000013072 numpy array 
the next 1024 the green, and th 
channel values of the first row 
* labels — a list of 10000 number 


. Each rov of the array si 
1024 the blue. The image 


a 32x32 colour image. The first 1024 entries contain the red channel values, 
d in row-major order, so that the first 32 entries of the array are the red 





he image 
n the range 0-9. The number at index 7 indicates the label of the ith image in the array data. 
12-19. CIFAR-10 数据 结构 


可 以 看 到 ， 数 据 集中 的 数据 分 成 两 部 分 。 第 一 部 分 是 特征 部 分 ， 使 用 一 个 [10000,3072] 的 
uint8 的 矩阵 进行 存储 ， 每 一 行 向 量 都 是 一 幅 3X3 大 小 的 3 通道 图 片 ， 构 成 的 格式 如 [3,3,3]。 

第 二 部 分 是 标签 部 分 ， 使 用 的 是 一 个 10000 数据 的 list 进行 存储 ， 每 个 list 对 应 于 是 0~9 

一 个 数字 ， 对 应 一 个 物品 分 类 ， 如 图 12-20 所 示 。 另 外 ， 对 于 Python 读 取 的 数据 集 ， 还 
有 一 个 标签 称 为 “label names" ”， 例 如 label names[0] == "airplane". label names[1] == 
"automobile" 等 。 


























0 2 1 
1 2 2 
2 1 1 
9 2 1 1 























图 12-20 CIFAR-10 数据 的 矩阵 存储 
对 于 具体 的 数据 读 取 方法 ，CIFAR-10 网 页 也 提供 了 相应 的 代码 : 


def unpickle (file): 
import pickle 
with open(file, 'rb') as fo: 
dict = pickle.load(fo, encoding-'bytes') 
return dict 


HEIER, ZEH pickle 的 load 函数 从 数据 中 载 入 文件 ， 这 里 返回 的 是 
一 个 字典 ，Python 中 字典 是 包含 key 与 value 的 数据 格式 ， 因 此 可 以 知道 ， 这 里 diet 就 是 包含 
data 与 labels 的 数据 字典 。 

此 外 ， 返 回 的 labels 是 一 个 包含 0~9 数字 的 list 列表 。 


[0,2,1,2,3,4,6,7,5,9,8...... 6,3,1] 


在 前 面 的 代码 中 ， 所 需 的 labels 采用 one-hot J, KHMAEIRKA, BU 10 个 列表 数字 
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中 只 有 对 应 的 那个 值 为 1， 其 他 为 0， 因 此 需要 将 提供 的 list 格式 转换 成 对 应 的 one-hot 矩阵 。 
代码 如 下 : 


def onehot (labels): 
'''one-hot 编码 ''' 
n sample = len(labels) 
n class = max(labels) + 1 
onehot labels = np.zeros((n sample, n class)) 
onehot labels[np.arange(n sample), labels] = 1 
return onehot labels 


需要 说 明 的 是 ， 在 上 面 的 代码 中 : 
onehot labels[np.arange(n sample), labels] = 1 


这 里 使 用 的 Python 特有 的 迭代 方法 ， 在 生成 的 矩阵 中 使 用 np.arrange 方法 将 数据 迭代 到 
当前 的 列表 中 ， 并 将 列表 值 赋 予 1。 

下 面 是 整体 数据 的 读 取 ， 由 于 下 载 后 解压 缩 的 数据 文件 是 以 batch 分 布 存 储 的 ， 因 此 需要 
将 其 进行 读 取 和 链接 ， 代 码 如 下 : 


+ 训练 数据 集 

datal = unpickle('cifarl0-dataset/data batch 1') 

data2 = unpickle('cifarl0-dataset/data batch 2') 

data3 = unpickle ('cifarl0-dataset/data_batch_3') 

data4 = unpickle ('cifarl0-dataset/data_batch_4') 

data5 = unpickle ('cifarl0-dataset/data_batch_5') 

X train = np.concatenate((datal['data'], data2['data'], data3['data'], 
data4['data'], data5['data']), axis-0) 

y train - np.concatenate((datal['labels'], data2['labels'], data3['labels'], 
data4['labels'], data5['labels']), axis-0) 





y train - onehot(y train) 

# 测试 数据 集 

test = unpickle("' cifarl0-dataset/test batch') 
X test test['data'][:5000, :] 

y test onehot(test['labels'])[:5000, :] 


print('Training dataset shape:', X train.shape) 
print('Training labels shape:', y train.shape) 
print('Testing dataset shape:', X test.shape) 
print('Testing labels shape:', y test.shape) 


这 里 使 用 unpick 函数 依次 读 取 了 5 batch 中 的 数据 ， 生 成 的 是 5 个 dict 格式 文件 ， 其 中 
的 数据 是 以 [data,labels] 格 式 存放 的 ， 之 后 链接 对 应 的 5 个 特征 数据 和 标签 数据 生成 最 终 的 训 
HE. 这里， 测试 机 采用 前 5000 个 数据 作为 测试 集 进行 计算 。 

下 面 是 关于 参数 的 设置 ， 由 于 在 模型 建立 的 时 候 ， 对 所 包含 的 参数 已 经 做 了 设 定 ， 因 此 
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在 此 次 程序 编写 时 将 其 设 定 的 值 以 常数 的 形式 进行 固定 ， 这 样 做 的 好 处 是 便于 在 后 期 进行 修 


改 ， 


代码 如 下 : 
# 模型 参数 


learning_rate = le-3 
training_iters = 200 

batch size = 50 

display step = 5 

n features = 3072 # 32*32*3 
n classes — 10 


n fcl = 384 
n fc2 = 192 
可 以 看 到 ，n_features 被 设 定 成 3072， 这 个 结果 是 : 


Jo 320x032 0 a 

因为 每 个 图 片 大 小 为 32X32 构成 ， 包 含 3 个 通道 ， 因 此 最 终 的 特征 值 大 小 为 3072。 
下 面 是 对 数据 输入 和 最 终结 果 的 占 位 符 的 设 定 : 

# 构建 模型 


x = tf.placeholder(tf.float32, [None, n features]) 
y = tf.placeholder(tf.float32, [None, n classes]) 


这 里 设 定 的 矩阵 ， 第 一 个 是 None 代表 对 输入 的 行 数 不 确 定 ， 这 样 写 的 好 处 是 可 以 自由 设 





定 输入 数据 行 数 ， 便 于 批量 输入 数据 或 者 逐个 输入 数据 。 


数 。 
理 。 
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下 面 是 卷 积 层 的 确定 ， 同 样 对 于 已 经 确定 的 模型 来 说 ， 这 里 只 需要 设 定 每 层 模型 的 参 
为 了 统一 管理 ， 参 数 设置 的 方法 采用 字典 的 方式 ， 即 每 个 key 对 应 于 一 个 value 进行 处 


W conv = ( 
'convl': tf.Variable(tf.truncated normal([5, 5, 3, 32], stddev-0.0001)), 
'conv2': tf.Variable(tf.truncated normal([5, 5, 32, 64],stddev-0.01)), 
'fcl': tf.Variable(tf.truncated normal([8*8*64, n fcl], stddev-0.1)), 
'fc2': tf.Variable(tf.truncated normal([n fcl, n fc2], stddev-0.1)), 
'fc3': tf.Variable(tf.truncated normal([n fc2, n classes], stddev-0.1)) 

} 

b conv - ( 
'convl': tf.Variable(tf.constant(0.0, dtype-tf.float32, shape-[32])), 
'conv2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[64])), 
'fcl': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fcl1])), 
'fc2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fc2]1)), 
'fc3': tf.Variable(tf.constant(0.0, dtype-tf.float32, shape-[n classes])) 

} 


前 面 已 经 说 过 ， 对 于 数据 的 重 构 ， 需 要 将 其 按 要 求 的 格式 进行 重 构 ， 代 码 如 下 : 
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x image = tf.reshape(x, [-l, 327 32, 3]) 


这 里 是 对 输入 的 图 像 进行 了 重 构 ， 将 其 转化 为 需要 的 格式 。 下 面 就 是 卷 积 层 的 编写 ， 可 
以 看 到 ， 使 用 的 是 TensorFlow 提供 的 卷 积 函数 和 池 化 函数 。 代 码 如 下 : 


# 卷 积 层 1 

convl = tf.nn.conv2d(x image, W conv['convl'], strides-[1, 1, 1, 1], 
padding-'SAME') 

convl = tf.nn.bias add(convl1, b conv['conv1']) 

convl = tf.nn.relu(conv1) 

# 池 化 层 1 

pooll = tf.nn.avg pool(convl, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'SAME') 

4 LRN JŽ, Local Response Normalization 

norml = tf.nn.lrn(pooll, 4, bias-1.0, alpha-0.001/9.0, beta-0.75) 

+ 卷 积 层 2 

conv2 = tf.nn.conv2d(norml, W conv['conv2'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv2 = tf.nn.bias add(conv2, b conv['conv2']) 

conv2 = tf.nn.relu(conv2) 

4 LRN JŽ, Local Response Normalization 

norm2 = tf.nn.lrn(conv2, 4, bias-1.0, alpha-0.001/9.0, beta-0.75) 

+ 池 化 层 2 

pool2 = tf.nn.avg pool(norm2, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'SAME') 

reshape = tf.reshape(pool2, [-1, 8*8*64]) 


上 面 代码 根据 模型 建立 多 个 卷 积 层 和 池 化 层 。 值 得 注意 的 是 ， 这 里 使 用 了 一 个 新 的 概念 


称 为 LRN 层 。LRN 是 局 部 响应 归 一 化 层 的 意思 ， 它 的 作用 是 完成 一 种 “临近 抑制 ”操作 ， 对 
局 部 输入 区 域 进行 归 一 化 ， 是 全 部 输入 值 都 除 以 一 个 基础 系数 再 计算 出 来 的 均值 。 











E LRN 在 早期 的 深度 学 习 中 有 比较 重要 的 影响 ， 但 是 随 着 Batch Normalization 算法 的 提出 | 
C LRN 的 作用 已 经 大 大 不 如 以 前 了 ， 这 里 仅 供 了 解 。 











模型 中 使 用 了 2 个 卷 积 层 和 2 个 池 化 层 ， 卷 积 层 中 使 用 SAME 格式 ， 即 输出 的 图 像 数 据 
和 矩阵 与 输入 一 样 大 小 。 


fcl tf.add(tf.matmul(reshape, W conv['fcl']), b conv['fc1']) 

fcl = tf.nn.relu(fcl) 

# 全 连接 层 2 

fc2 = tf.add(tf.matmul(fcl, W conv['fc2']), b conv['fc2']) 

fc2 — tf.nn.relu(fc2) 

t 全 连接 层 3， 即 分 类 层 

fc3 = tf.nn.softmax(tf.add(tf.matmul(fc2, W conv['fc3']), b conv['fc3'])) 
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最 后 是 损失 函数 的 确定 ， 这 里 采用 的 是 交叉 粒 函 数 作为 损失 函数 ， 而 评估 模型 使 用 的 是 
对 比 计算 的 方法 ， 在 前 面 章节 已 经 介绍 过 。 


定义 损失 
loss = tf.reduce mean(tf.nn.softmax cross entropy with logits(fc3, y)) 
optimizer — 

tf.train.GradientDescentOptimizer(learning rate-learning rate).minimize (loss) 
# 评估 模型 
correct pred = tf.equal(tf.argmax(fc3, 1), tf.argmax(y, 1)) 
accuracy = tf.reduce mean(tf.cast(correct pred, tf.float32)) 


最 后 是 模型 的 训练 部 分 ， 采 用 的 是 批量 梯队 下 降 算 法 ， 根 据 给 定 的 数目 批量 生成 数据 结 
果 。 


with tf.Session() as sess: 
sess.run(init) 
Cac 
total batch = int(X train.shape[0] yi batch size) 
* for i in range(training iters): 
start time = time.time() 
for i in range(200): 
for batch in range(total batch): 
batch x = X train[batch*batch size : (batch+1)*batch size, :] 
batch y = y train[batch*batch size : (batch*l)*batch size, :] 
sess.run(optimizer, feed dict-(x: batch x, y: batch y]) 
acc = sess.run(accuracy, feed dict-(x: batch x, y: batch y]) 
print (acc) 
c.append (acc) 
end time = time.time() 
print('time: ', (end time - start time)) 
start time — end time 
Print ("=== &d'onpechods finished=================== "Ai 


print ("Optimization Finished!") 
可 以 看 到 ， 这 里 使 用 的 方法 是 将 整体 数据 集 的 个 数 与 预先 设 定 的 批量 大 小 相 除 ， 得 到 的 
结果 作为 批 处 理 的 数目 进行 训练 。 
最 终 模型 代码 如 程序 12-1 所 示 。 


【程序 12-1】 


# coding: utf-8 


import tensorflow as tf 

import numpy as np 

import matplotlib.pyplot as plt 
import pickle as pickle 
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import time 


def unpickle (filename): 
with open(filename, 'rb') as f: 
d = pickle.load(f, encoding-'latinl') 
return d 


def onehot (labels): 
''"one-hot 编码 ''' 
n sample = len(labels) 
n class = max(labels) + 1 
onehot labels = np.zeros((n sample, n class)) 
onehot labels[np.arange(n sample), labels] = 1 


return onehot labels 


Ui d 
datal = unpickle('cifarl0-dataset/data batch 1') 


data2 = unpickle('cifarl0-dataset/data batch 2') 
data3 = unpickle ('cifarl0-dataset/data_batch_3') 
data4 = unpickle('cifarl0-dataset/data batch 4') 


data5 = unpickle( 'cifarl0-dataset/data batch 5' ) 

X train - np.concatenate((datal['data'], data2['data'], data3['data'], 
data4['data'], data5['data']), axis-0) 

y train - np.concatenate((datal['labels'], data2['labels'], data3['labels'], 
data4['labels'], data5['labels']), axis-0) 

y train - onehot(y train) 

# 测试 数据 集 

test = unpickle( 'cifarl0-dataset/test batch') 

X test test['data'][:5000, :] 

y test onehot(test['labels'])[:5000, :] 


print('Training dataset shape:', X train.shape) 
print('Training labels shape:', y train.shape) 
print('Testing dataset shape:', X test.shape) 
print('Testing labels shape:', y test.shape) 


with tf.device('/cpu:0'): 


+ 模型 参数 

learning rate = le-3 
training iters = 200 
batch size = 50 
display step = 5 
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n features 三 -3072 # 32*32*3 


n_classes = 10 
n_fcl = 384 
n fc2 = 192 


# 构建 模型 


x = tf.placeholder(tf.float32, [None, n features]) 
ys 


tf.placeholder(tf.float32, [None, n classes]) 


W conv —- ( 
'convl': tf.Variable(tf.truncated normal([5, 5, 3, 32], 


stddev-0.0001)), 


'conv2': tf.Variable(tf.truncated normal([5, 5, 32, 64],stddev-0.01)), 
'fcl': tf.Variable(tf.truncated normal([8*8*64, n fcl], stddev-0.1)), 
'fc2': tf.Variable(tf.truncated normal([n fcl, n fc2], stddev-0.1)), 
'fc3': tf.Variable(tf.truncated normal([n fc2, n classes], 


stddev-0.1)) 


H 

b cow = ( 
'convl': tf.Variable(tf.constant(0.0, dtype-tf.float32, shape-[32])), 
'conv2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[64])), 
'fcl': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fcl1]1)), 
'fc2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fc21)), 
'fc3': tf.Variable(tf.constant(0.0, dtype-tf.float32, 


shape-[n classes])) 


) 


x image = tf.reshape(x, [-1, 32, 32, 3]) 
# 卷 积 层 1 


convl = tf.nn.conv2d(x image, W conv['convl'], strides-[1, 1, 1, 1], 


padding-'SAME') 


convl = tf.nn.bias add(convl, b conv['convl']) 

convl = tf.nn.relu(convl) 

# 池 化 层 1 

pooll = tf.nn.avg pool(convl, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 


padding-'SAME') 


# LRN Æ, Local Response Normalization 
norml = tf.nn.lrn(pooll, 4, bias=1.0, alpha-0.001/9.0, beta=0.75) 
# 卷 积 层 2 


conv2 = tf.nn.conv2d(norml, W conv['conv2'], strides-[1, 1, 1, 1], 


padding-'SAME!) 
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conv2 = tf.nn.bias add(conv2, b conv['conv2']) 


conv2 = tf.nn.relu(conv2) 
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# LRN/Z, Local Response Normalization 

norm2 = tf.nn.lrn(conv2, 4, bias-1.0, alpha-0.001/9.0, beta-0.75) 

+ 池 化 层 2 

pool2 = tf.nn.avg pool(norm2, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'SAME') 

reshape - tf.reshape(pool2, [-1, 8*8*64]) 


LU 


fer tf.add(tf.matmul(reshape, W conv['fc1l']), b conv['fcl']) 
fcl = tf.nn.relu(fcl) 

# 全 连接 层 2 

fc2 = tf.add(tf.matmul(fcl, W conv['fc2']), b conv['fc2']) 

fc2 = tf.nn.relu(fc2) 

# 全 连接 层 3， 即 分 类 层 


fc3 = tf.nn.softmax(tf.add(tf.matmul(fc2, W conv['fc3']), b conv['fc3'])) 


# 定义 损失 
loss = tf.reduce mean(tf.nn.softmax cross entropy with logits(fc3, y)) 
optimizer = 

tf.train.GradientDescentOptimizer (learning rate=learning rate) .minimize (loss) 
# 评估 模型 


correct pred = tf.equal(tf.argmax(fc3, 1), tf.argmax(y, 1)) 
accuracy - tf.reduce mean(tf.cast(correct pred, tf.float32)) 


init - tf.global variables initializer() 


with tf.Session() as sess: 
sess.run (init) 
[ej 
total batch = int(X train.shape[0] / batch size) 
+ for i in range (training iters): 
start_time = time.time() 
for i in range (200): 
for batch in range (total batch): 
batch x = X train[batch*batch size : (batch+1)*batch size, 
batch_y = y_train[batch*batch_size : (batch+1)*batch_size, 
sess.run (optimizer, feed dict-(x: batch x, y: batch_y}) 
acc = sess.run(accuracy, feed dict-(x: batch x, y: batch y}) 
print (acc) 
c.append (acc) 
end time = time.time() 
print('time: ', (end time - start time)) 
start time — end time 
PEINE a sd onnech 汪汪 1 一 一 天 二 一 全 一 一 一 一 一 一 一 一 二 Mrd) 
print("Optimization Finished!") 


* Test 

test acc = sess.run(accuracy, feed dict-([x: X test, y: y test]) 
print("Testing Accuracy:", test acc) 

plt.plot (c) 

plt.xlabel('Iter') 
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plt.ylabel('Cost') 
plt.title('lr-$f, ti-$d, bs-$d, acc-$f' $ (learning rate, training iters, 
batch size, test acc)) 
plt.tight layout() 
plt.savefig('cnn-tf-cifarl0-$s.png' $ test acc, dpi-200) 
根据 计算 机 不 同 的 运行 速率 ， 可 以 得 到 运行 时 间 ， 在 作者 的 计算 机 中 ， 大 概 90 秒 运行 一 
个 周期 ， 具 体 结果 请 读者 自行 打印 完成 。 


12.2.3 CIFAR-10 模型 的 细节 描述 与 参数 重 构 


本 小 节 将 对 模型 参数 做 更 细致 的 讲解 ， 主 要 是 对 模型 的 参数 进行 调节 。 神 经 网 络 的 模 
型 在 设计 完成 后 往往 并 不 需要 很 大 的 变动 ， 要 做 的 工作 更 多 的 是 在 使 用 过 程 中 对 参数 进行 
调节 。 

1. 一 般 来 说 ， 首 先 需要 调节 的 是 学 习 率 

学 习 率 的 不 同 会 对 模型 的 收敛 有 很 大 的 影响 ， 同 样 的 模型 采用 不 同 的 学 习 率 会 表现 得 非 
常 不 同 。 学 习 率 的 调节 往往 都 是 靠 经 验 进 行 设置 ， 这 里 作者 也 没有 更 好 的 方法 ， 但 是 作者 在 
使 用 时 一 般 都 会 首先 将 学 习 率 设置 为 1E-4 左右 ， 即 从 0.0001 开始 ， 逐 步 增 大 学 习 率 。 

在 此 模型 中 学 习 率 设置 为 1E-4， 读 者 根据 需要 对 学 习 率 进行 设置 ， 可 以 参考 模型 拟 合 的 
结果 。 

2. 对 于 模型 过 拟 合 的 处 理 

对 于 深度 学 习 模型 的 设计 ， 随 着 计算 机 硬件 资源 的 提高 ， 模 型 也 设计 得 越 来 越 深 ， 同 时 
神经 元 的 个 数 也 不 断 增加 。 这 样 做 的 好 处 是 可 以 对 复杂 的 情况 进行 处 理 ， 但 是 在 这 种 情况 
下 ， 模 型 在 强行 对 函数 进行 拟 合 的 过 程 中 ， 更 容易 产生 过 拟 合 。 

为 了 防止 或 减少 过 拟 合 的 产生 ， 程 序 设计 人 员 采 用 了 大 量 的 办 法 ， 本 例 中 使 用 LRN 层 也 
是 防止 过 拟 合 的 手段 之 一 。 除 此 之 外 ， 常 用 的 防止 过 拟 合 的 手段 还 有 Dropout、 对 数据 集 使 用 
Batch Normalization， 以 及 增 大 数据 集 。 例 如 图 像 裁剪 、 对 称 变换 、 旋 转 平 移 ， 都 可 以 让 模型 
在 验证 集 上 的 表现 更 好 。 


3. 激活 函数 选择 


前 面 已 经 说 过 ， 常 用 的 激活 函数 使 用 的 是 Sigmoid 和 ReLU， 在 本 例 中 ， 所 有 的 层级 〈 卷 
积 + 全 连接 ) 都 使 用 了 ReLU 作为 激活 函数 。 如 果 有 读者 对 其 感 兴趣 ， 可 以 尝试 将 ReLU 函数 
替换 成 Sigmoid 函数 进行 处 理 。 

使 用 ReLU 的 优 缺 点 在 前 面 已 经 做 了 介绍 ,从 ReLU 图 形 的 分 析 来 看 , 它 就 是 一 种 受 限 激 
活 函 数 , 这 种 函数 在 使 用 中 为 网 络 引 入 了 大 量 的 稀疏 性 ,至少 有 一 半 的 神经 元 并 不 会 激活 ， 因 
而 加 速 了 强 特征 的 提取 和 弱 特 征 的 瓦解 ， 增 强 了 学 习 效 果 。 

4. 权 值 的 初始 化 


对 于 Sigmoid 网 络 来 说 ， 有 如 下 两 种 固定 的 权重 初始 化 方法 : 
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(1) Log-Sigmoid 函数 : 


No ,4x —— s ] 
NLayerInput + LayerQut ALayerInput + LayerOut 


(2) Tanh-Sigmoid 函数 : 


[-4 x 


| 
ALayerInput + LayerOut : ALayer Input + LayerOut 


以 上 这 2 个 参数 是 使 用 Sigmoid 函数 常用 的 设置 。 但 是 对 于 ReLU 函数 来 说 ， 它 用 作 回 归 
的 激活 函数 ， 输 出 结果 近似 于 正 态 分 布 。 因 此 在 本 例 中 采用 的 随机 正 态 分 布 生成 0 均值 ， 标 
准 差 一 定 的 随机 和 矩阵 作为 初始 化 参数 ， 并 在 计算 过 程 中 逐步 加 大 标准 差 ， 使 得 权重 能 够 获得 
一 个 弹性 增加 。 
w_conv = { 
'convl': tf.Variable(tf.truncated normal([5, 5, 3, 32], 
stddev-0.0001)), 
'conv2': tf.Variable(tf.truncated normal([5, 5, 32, 64],stddev-0.01)), 
'fcl': tf.Variable(tf.truncated normal([8*8*64, n fcl], stddev-0.1)), 
'fc2': tf.Variable(tf.truncated normal([n fcl, n fc2], stddev-0.1)), 
'fc3': tf.Variable(tf.truncated normal([n fc2, n classes], 
stddev-0.1)) 
} 
可 以 看 到 ， 这 里 的 权重 随 着 层次 的 逐渐 深入 ， 逐 步 按 0.001 一 0.01 一 0.1 一 0.1 一 0.1 的 顺序 
增加 。 
5. 池 化 层 的 选择 
在 前 面 介 绍 池 化 算法 的 时 候 提 到 ， 一 般 池 化 算法 有 两 种 ， 分 别 是 MaxPooling 和 
AvgPooling。 在 本 例 中 使 用 的 是 AvgPooling， 相 对 于 MaxPooling 来 说 ，AvgPooling 能 够 提供 
具有 更 小 噪声 的 数据 ， 即 将 原始 图 像 中 的 噪声 降 品 处理 。 


[-1 x 





12.3 say 


本 章 全 面 介 绍 了 卷 积 神经 网 络 的 基本 算法 ， 特 别 是 对 卷 积 神经 网 络 中 反 向 传播 算法 做 了 
一 个 详尽 的 解释 ， 之 后 通过 示例 回顾 了 卷 积 神经 网 络 的 使 用 方法 ， 借 用 卷 积 神经 网 络 实现 对 
CIFAR-10 数据 集 的 判别 和 参数 做 了 解释 。 

实际 上 深度 学 习 的 模型 已 经 较为 成 熟 ， 而 用 得 更 多 的 是 一 些 经 典 的 模型 ， 读 者 应 该 首先 
掌握 这 些 经 典 模型 的 使 用 和 一 些 细节 ， 并 在 其 基础 上 根据 应 用 的 实际 情况 做 出 修改 。 
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一 直 以 来 , 对 于 现实 世界 中 的 图 像 辨 认 是 计算 机 视觉 研究 的 重 中 之 重 。 为 此 世界 各 地 每 年 
各 种 关于 计算 机 对 图 像 识别 的 竞赛 层出不穷 , 各 种 论文 和 相关 算法 也 是 大 量 涌现 , 很 好 地 促进 
了 使 用 计算 机 图 像 辨 认 技术 的 发 展 。 

但 是 由 于 基础 和 硬件 资源 的 受 限 , 关于 计算 机 辨识 能 力 始终 没有 获得 突飞猛进 的 发 展 ; 而 
最 终 打破 这 个 僵局 使 计算 机 视觉 发 展 水 平 上 了 一 个 大 台阶 的 是 应 用 卷 积 神经 网 络 发 展 起 来 的 

-个 新 的 实用 型 网 络 : AlexNet。 

2012 年 ， 在 ImageNet 上 的 图 像 分 类 challenge 上 ，Alex 提出 的 AlexNet 网 络 结构 模型 ， 
赢得 了 2012 届 的 图 像 识 别 冠 军 。 在 此 基础 上 GoogleNet 和 VGG 同时 获得 了 ImageNet 上 2014 
年 的 好 成 绩 。 

从 图 13-1 上 可 以 看 到 , AlexNet 是 在 LeNet 上 发 展 起 来 的 应 用 卷 积 神经 网 络 的 一 个 深度 学 
习 模 型 ， 与 LeNet 不 同 的 是 ，AlexNet 使 用 了 GPU 对 更 多 的 数据 进行 处 理 ， 并 且 首 次 引入 了 
Dropout Itin UR ReLU 激活 函数 替代 sigmoid 来 作为 激活 函数 。 当 然 应 用 这 
些 新 技术 新 想法 的 结果 也 是 令 人 欣慰 的 。 

网 络 加 深 
VvGe16 一 























VGG19 .—» MSRANet DERIT 





um z 
GPM*Blgdata 
图 13-1 卷 积 神经 网 络 识别 的 发 展 


在 此 基础 上 发 展 了 VGG 网 络 和 NIS 网 络 ， 以 及 使 用 这 2 种 结合 建立 的 ResNet 模型 ， 建 
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立 了 有 着 更 深 的 卷 积 、 收敛 和 运算 速度 更 快 的 神经 网 络 模型 。 可 以 说 目前 所 有 比较 成 功 的 神经 
网 络 模 型 都 是 来 自 于 AlexNet。 
本 章 将 主要 介绍 AlexNet 的 原理 以 及 应 用 ， 并 使 用 TensorFlow 具体 实现 这 个 神经 网 络 。 


1 3 e 1 AlexNet 简介 


AlexNet 实际 上 是 从 LeNet 上 发 展 起 来 的 一 个 新 的 卷 积 神经 网 络 模型 。 这 个 模型 比 起 之 前 
我 们 看 到 的 Cifar10 和 LeNet 模型 相对 来 说 要 复杂 一 些 ， 训练 时 间 是 在 两 台 GPU 上 进行 了 一 
周 ， 后 期 在 Hinton 的 建议 下 ， 在 全 连接 层 加 入 ReLU 和 Dropout 层 。 


13.1.1 AlexNet 模型 解读 


对 于 这 个 模型 ， 分 解 来 看 ，AlexNet 上 的 一 个 完整 的 卷 积 层 可 能 包括 一 层 convolution、 一 
层 Rectified Linear Units、 一 层 max-pooling、 一 层 normalization。 而 整个 网 络 结构 包括 五 层 卷 
积 层 和 三 层 全 连接 层 ， 网 络 的 最 前 端 是 输入 图 片 的 原始 像素 点 ， 最 后 端 是 图 片 的 分 类 结果 。 















图 13-2 中 特殊 的 地 方 就 是 卷 积 部 分 都 是 画 成 上 下 两 块 ,意思 是 在 这 一 层 计算 出 来 的 feature 
map 要 分 开 计算 。 这 样 做 是 因为 当时 在 网 络 设计 时 , 计算 机 硬件 资源 不 足 ， 好 处 是 能 够 极 
大 地 加 快 计算 速度 , 但 是 运算 趋势 已 经 由 单机 计算 发 展 到 分 布 式 计算 , 因此 这 样 的 分 布 就 


没有 太 多 的 必要 。 


192 128 os GA 



































h3 dense" [densi 












































192 128 Max 
Max pooling 
pooling 





2048 2048 





图 13-2 AlexNet 模型 
具体 打开 AlexNet 来 看 其 中 每 一 层 的 使 用 。 
1. 第 一 层 : 卷 积 层 
在 这 里 对 层 中 数值 进行 解释 ， 其 中 convi 说 明 这 里 输出 为 96 层 ， 使 用 的 卷 积 核 大 小 为 
[11,11]， 步 进 为 4。 在 此 之 后 数据 被 变 为 大 小 为 [55.53]、 深 度 为 94 的 数据 。 之 后 进行 一 次 
ReLU 激活 ， 再 将 输入 的 数据 进行 池 化 处 理 ， 池 化 的 核 大 小 为 3， 每 次 步 进 为 2， 如 图 13-3 所 
示 。 
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图 13-3 AlexNet 模型 第 1 个 卷 积 层 


池 化 层 的 步 进 为 2 说 明 这 里 使 用 的 是 重合 池 化 ， 重 秋池 化 的 作用 是 对 数据 集 的 特征 保留 
相对 于 一 般 池 化 更 多 ， 更 好 地 反应 特征 现象 。 后 面 就 是 对 数据 的 归 一 化 处 理 ， 这 里 使 用 的 是 
特殊 计算 层 一 一 LRN 层 ， 其 作用 是 对 当前 层 的 输出 结果 做 平滑 处 理 ， 如 图 13-4 所 示 。 






站、 
1-5 


q----------.--.-4 


acd nes Ee 


` 
` 
€ 


图 13-4 LRN 层 的 计算 


b-a/((k-a/ NYJ (aY 
此 公式 中 a 是 当前 层 中 需要 计算 的 点 ， e 为 缩放 因子 ， 为 指数 项 ， 这 2 项 均 是 计算 系 
数 ，N 是 扩展 的 层 数 ， 一 般 建议 选 5 (前 后 2 层 加 本 身 的 1 层 ) 。 
2. 第 二 层 : 卷 积 层 
第 二 层 卷 积 层 如 图 13-5 所 示 。 








图 13-5 AlexNet 模型 第 2 个 卷 积 层 


3. 第 三 层 : 卷 积 层 
第 三 层 卷 积 层 如 图 13-6 所 示 。 
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13-6 AlexNet 模型 第 3 个 卷 积 层 


4. 第 四 层 : 卷 积 层 
第 四 层 卷 积 层 如 图 13-7 所 示 。 





图 13-7 AlexNet 模型 第 4 个 卷 积 层 


5. 第 五 层 : 卷 积 层 
第 五 层 卷 积 层 如 图 13-8 所 示 。 








图 13-8 AlexNet 模型 第 5 个 卷 积 层 
6. 第 六 层 : 全 连接 层 
第 六 层 全 连接 层 如 图 13-9 所 示 。 








图 13-9 AlexNet 模型 第 1 个 全 连接 层 
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从 第 6 层 开始 是 全 连接 层 ， 这 里 的 参数 如 图 13-9 所 示 。 需 要 说 明 的 是 ， 对 于 全 连接 层 的 
含义 ， 每 个 人 的 理解 和 解释 都 不 尽 相同 ， 在 这 里 我 们 从 矩阵 计算 的 方式 进行 解释 。 

全 连接 层 进 行 的 是 权重 和 输入 值 的 矩阵 计算 ， 本 质 就 是 将 输入 矩阵 特征 空间 投射 到 另 一 
个 特征 空间 。 在 这 个 空间 投射 变换 过 程 中 ， 提 取 整 合 了 有 用 的 信息 ， 加 上 适当 的 激活 函数 ， 
使 得 全 连接 层 在 理论 上 可 以 模拟 出 线性 和 非 线性 变换 。 

这 个 全 连接 层 在 整个 连接 的 最 后 一 层 将 不 同 的 结果 映射 ， 这 样 就 可 以 认为 是 对 输入 进行 
分 类 。 在 卷 积 神经 网 络 中 ， 使 用 大 量 的 卷 积 和 池 化 层 做 特征 提取 ， 之 后 使 用 全 连接 做 特征 加 
权 和 映射 。 


7. 第 七 层 : 全 连接 层 
第 七 层 全 连接 层 如 图 13-10 所 示 。 








图 13-10 AlexNet 模型 第 2 个 全 连接 层 


8. 第 八 层 : 全 连接 层 
第 八 层 全 连接 层 如 图 13-11 所 示 。 


"data" i o “data” 
4096 1000 


Æ 13-11 AlexNet 模型 最 后 输出 层 
从 全 连接 层 的 图 示 可 以 看 到 ， 这 里 使 用 了 2 个 dropout 层 。dropout 是 指 在 深度 学 习 网 络 的 
训练 过 程 中 ， 对 于 神经 网 络 单元 ， 按 照 一 定 的 概率 将 其 暂时 从 网 络 中 丢弃 。 这 样 做 的 好 处 是 
对 于 随机 梯度 下 降 来 说 ， 由 于 是 随机 丢弃 ， 因 此 每 一 个 mini-batch 都 在 训练 不 同 的 网 络 。 
最 终 由 最 后 一 个 全 连接 层 对 数据 进行 分 类 处 理 ， 使 用 的 是 softmax 函数 进行 数据 分 类 。 
13.1.2. AlexNet 程序 的 实现 
通过 前 面 章节 的 学 习 ， 我 们 对 LeNet 有 了 一 个 了 解 ， 并 使 用 了 TensorFlow 框架 进行 程序 
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设计 , 编写 了 相应 的 代码 。 实 际 上 AlexNet 就 是 在 LeNet 模型 的 基础 上 变形 而 来 的 ， 因 此 可 以 
通过 对 LeNet 修改 完成 AlexNet 的 实现 。 

在 程序 的 编写 上 ， 可 以 遵循 着 敏捷 开发 原则 ， 对 参数 进行 集中 管理 。AlexNet 的 全 景 图 如 
图 13-12 所 示 。 
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图 13-12 AlexNet 模型 全 景 图 


可 以 看 到 ， 在 图 13-12 的 全 景 图 中 对 各 个 层 的 系数 做 分 解 和 说 明 ， 因 此 在 编写 代码 时 最 
好 的 设 定 就 是 预先 将 系数 以 参数 的 形式 固定 ， 代 码 段 如 下 : 


learning rate = 1e-4 
training iters = 200 
batch size = 50 
display step - 5 

n classes - 2 

n fcl - 4096 

n fc2 = 2048 


# 构建 模型 
X = tf.placeholder (tf.float32, [None, 227, 227, 3]) 
y = tf.placeholder(tf.int32, [None, n classes]) 


W conv = ( 
'convi': tf.Variable(tf.truncated normal([11, 11, 3, 96], stddev-0.0001)), 
'conv2': tf.Variable(tf.truncated normal([5, 5, 96, 256], stddev-0.01)), 
'conv3': tf.Variable(tf.truncated normal([3, 3, 256, 384], stddev-0.01)), 
'conv4': tf.Variable(tf.truncated normal([3, 3, 384, 384], stddev-0.01)), 
'conv5': tf.Variable(tf.truncated normal([3, 3, 384, 256], stddev-0.01)), 
'fcl':tf.Variable(tf.truncated normal([13 * 13 * 256, n fc1], stddev-0.1)), 
'fc2': tf.Variable(tf.truncated normal([n fcl, n fc2], stddev-0.1)), 
'fc3': tf.Variable(tf.truncated normal([n fc2, n classes], stddev-0.1)) 

i 


b conv = { 
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'convl': tf.Variable(tf.constant(0.0, dtype-tf.float32, shape-[96]1)), 
'conv2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[256])), 
'conv3': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[384])), 
'conv4': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[384])), 
'conv5': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[256])), 
'fcl': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fc1])), 
'fc2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fc2]1)), 
'fc3': tf.Variable(tf.constant(0.0, dtype-tf.float32, shape-[n classes])) 
} 


在 这 里 分 别 对 模型 的 参数 进行 设 定 ， 学 习 率 为 0.0001， 预 定 的 运行 循环 次 数 为 200 次 ， 
每 次 运行 时 使 用 50 个 随机 数据 。n_classes 是 分 类 数目 ， 这 里 在 代码 设计 时 就 确定 了 其 目的 是 
进行 “猎狗 大 战 ” 的 竞赛 ， 而 设 定 的 全 连接 层 中 的 神经 元 数目 为 4096 与 2048。 

接 下 来 再 确定 占 位 符 。 占 位 符 使 用 的 是 矩阵 的 形式 ， 数 据 格式 为 “foat32”， 其 作用 就 
是 在 模型 计算 和 损失 函数 计算 时 输入 数据 。 

这 里 使 用 了 Python 程序 中 的 字典 对 数据 的 存储 做 了 设计 。 这 样 做 的 好 处 是 能 够 简化 程序 
的 编写 难度 ， 在 每 一 层 的 数据 使 用 上 只 需要 调用 相应 的 变量 即 可 ， 变 量 对 应 的 变量 值 是 根据 
模型 框架 统一 计算 和 设计 的 ， 因 此 建议 读者 也 使 用 这 种 方法 对 更 多 的 网 络 参 数 进 行 管理 。 

下 面 对 各 个 层 进行 详细 介绍 。 

1. 第 一 层 卷 积 层 

# 卷 积 层 1 


convi = tf.nn.conv2d(x image, W conv['convl'], strides=[1, 
4, 4, 1], padding-'VALID') 


convl = tf.nn.bias add(convl, b conv['conv1']) 
convl = tf.nn.relu(convl) 
# 池 化 层 1 


pooll = tf.nn.avg pool(convl, ksize-[1, 3, 3, 1], 
strides-[1, 2, 2, 1], padding-'VALID') 





* LRNÍÉ, Local Response Normalization 











norml = tf.nn.lrn(pooll, 5, bias-1.0, alpha-0.001 / 9.0, 
beta-0.75) 


这 里 使 用 的 图 像 规格 是 [227,227,3]， 这 也 是 在 后 面 图 像 处 理 时 输入 的 图 像 数 据 。 需 要 注意 
的 是 ， 数 据 图 片 提 供 的 图 像 格式 为 RBG， 有 3 个 通道 ， 这 里 在 卷 积 层 第 一 层 提 供 的 卷 积 核 为 
96， 同 样 也 是 3 通道 。 
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PERJE 2 


conv2 = tf.nn.conv2d(norml, W conv['conv2'], 
strides-[1, 1, 1, 1], padding-'SAME') 


conv2 tf.nn.bias add(conv2, b conv['conv2']) 
conv2 = tf.nn.relu(conv2) 


+ 池 化 层 2 









Max 
pooling F pool2 - tf.nn.avg pool(conv2, ksize-[1, 3, 3, 1], 
48 strides-[1, 2, 2, 1], padding-'VALID') 





* LRNÍÉ, Local Response Normalization 


norm2 = tf.nn.lrn(pool2, 5, bias-1.0, alpha-0.001 / 
9.0, beta-0.75) 


t 卷 积 层 3 


conv3 = tf.nn.conv2d(norm2, W conv['conv3'], strides-[1, 1, 
1, 1], padding-'SAME') 


conv3 = tf.nn.bias add(conv3, b conv['conv3']) 





à conv3 - tf.nn.relu(conv3) 
ax 


»ooling 
4. 第 四 层 卷 积 层 
+ 卷 积 层 4 


conv4 = tf.nn.conv2d(conv3, W conv['conv4'], strides-[1, 1, 
1, 1], padding-'SAME') 


conv4 tf.nn.bias add(conv4, b conv['conv4']) 





conv4 = tf.nn.relu(conv4) 
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t 卷 积 层 5 


conv5=tf.nn.conv2d(conv4, W conv['conv5'], strides-[1, 1, 
1, 1], padding-'SAME') 


conv5 = tf.nn.bias add(conv5, b conv['conv5']) 








conv5 - tf.nn.relu(conv5) 
+ 池 化 层 5 


pool5 = tf.nn.avg pool(conv5, ksize-[1, 3, 3, 1], 
strides-[1, 2, 2, 1], padding-'VALID') 


以 上 3 层 为 卷 积 层 的 最 后 3 层 ， 需 要 注意 的 是 ， 这 里 的 卷 积 层 并 没有 使 用 池 化 层 ， 而 是 在 
第 五 个 卷 积 层 结束 以 后 进行 了 池 化 处 理 。 下 面 是 对 全 连接 层 的 使 用 。 


6. 第 六 层 全 连接 层 
reshape = tf.reshape(pool5, [-1, 6 * 6 * 256]) 
# 全 连接 层 


fcl = tf.add(tf.matmul(reshape, W conv['fcl']), 
b conv['fcl']) 


fcl = tf.nn.relu(fcl) 








fcl - tf.nn.dropout(fcl, 0.5) 


这 里 需要 注意 的 是 ， 全 连接 层 在 使 用 前 首先 要 对 输入 的 卷 积 的 大 小 进行 重新 构建 ， 使 得 
4 维和 矩阵 重 构 为 2 维和 矩阵。 之 后 使 用 了 ReLU 激活 函数 以 及 池 化 层 对 其 进行 处 理 。 


7. 第 七 层 全 连接 层 
# 全 连接 层 
fc2 = tf.add(tf.matmul(fcl, W conv['fc2']), b conv['fc2']) 
fc2 — tf.nn.relu(fc2) 
iens 


fc2 = tf.nn.dropout(fc2, 0.5) 
2048 
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8. 第 八 层 全 连接 层 


dense 


t 全 连接 层 3， 即 分 类 层 


fc3 = tf.add(tf.matmul(fc2, W conv['fc3']), b conv['fc3']) 


真正 的 AlexNet 对 数据 的 分 类 是 将 其 分 成 1000 类 ， 但 是 在 本 次 程序 设计 时 只 需要 将 图 片 
分 成 2 类 即 可 。 
最 后 是 损失 函数 的 确定 ， 这 里 使 用 的 是 softmax HJ FHE X NETZ S 


定义 损失 
loss = tf.reduce mean(tf.nn.softmax cross entropy with logits(fc3, y)) 
optimizer — 

tf.train.GradientDescentOptimizer(learning rate-learning rate).minimize (loss) 
+ 评估 模型 
correct pred = tf.equal(tf.argmax(fc3, 1), tf.argmax(y, 1)) 
accuracy - tf.reduce mean(tf.cast(correct pred, tf.float32)) 





13.2 实战 猫 狗 大 战 —AlexNet 模型 


猫 狗 大 战 的 数据 集 来 源 于 Kaggle 上 的 一 个 竞赛 : Dogs vs. Cats， 成 立 于 2010 年 的 Kaggle 
是 一 个 进行 数据 发 据 和 预测 竞赛 的 在 线 和 平台。 万事达、 辉瑞 制药 公司 、 好 事 达 保险 公司 和 
Facebook， 甚 至 NASA 都 曾 在 这 个 平台 上 发 起 过 竞赛 。 

目前 ，Kaggle 上 已 有 超过 8.5 万 的 数据 科学 家 。 美 国运 通 和 纽约 时 报 等 公司 已 经 把 
Kaggle 排名 作为 数据 科学 家 招聘 过 程 中 的 重要 标准 。 排 名 不 仅仅 是 程序 员 的 勋章 ， 而 是 一 种 
比 传统 标准 更 为 重要 、 更 具 价值 的 能 力 证 明 。 

赛程 总 计 历 时 6 个 月 ， 吸 引 了 包括 美国 、 瑞 士 、 德 国 、 法 国 、 新 加 坡 、 印 度 等 国家 的 数 
据 科学 家 、 研 究 人 员 、 博 士 ， 以 及 硅谷 等 地 的 人 工 智能 企业 团队 参加 。 

当然 ， 也 有 不 少 中 国 的 个 人 和 团队 参赛 ， 其 中 有 中 国 竞赛 团队 Matview 进入 了 前 10 名 。 
同 进 前 10 的 参赛 者 中 ， 不 乏 有 谷歌 工程 师 、 知 名 黑客 、 机 器 学 习 首席 数据 科学 家 等 专业 人 
+. IIT Bombay 的 数据 科学 家 Damodar 也 参赛 过 ， 他 是 深度 学 习 图 像 分 类 方向 的 大 牛 ， 本 次 
比赛 也 获得 了 第 22 名 的 成 绩 。 

正如 Kaggle 在 本 次 国际 猫 狗 识别 比赛 的 介绍 中 所 说 ，2013 年 以 来 ， 机 器 学 习 领 域 发 生 了 
很 多 变化 ， 特 别 是 深度 学 习 和 图 像 识别 ， 这 项 本 是 数学 家 们 无 聊 时 用 来 打发 时 间 的 下 午 茶 技 
术 ， 现 在 正 广泛 地 运用 于 生活 和 生产 实践 中 。 
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13.2.1 数据 的 收集 与 处 理 

猎狗 大 战 的 数据 集 下 载 地 址 为 https:/www.kaggle.comy/c/dogs-vs-cats 。 其 中 数据 集 有 
12500 只 猫 和 12500 只 狗 。 与 前 面 MNIST 数据 集 不 同 之 处 在 于 ， 这 个 数据 集中 的 数据 都 是 来 
自 于 真实 世界 的 照片 ， 这 也 无 形 中 加 大 了 图 像 处 理 的 难度 ， 如 图 13-13 所 示 。 








图 13-13 ”猎狗 大 战 数据 集 图 片 


训练 神经 网 络 进行 图 片 识别 的 第 一 步 就 是 需要 对 数据 集 进行 加 工 和 处 理 。 

1. 第 一 步 : 数据 集 的 加 工 

数据 集中 的 数据 并 不 是 按照 规格 大 小 处 理 ， 对 于 不 同 的 图 片 ， 其 规格 尺寸 都 不 尽 相 同 ， 
因此 在 数据 提交 之 前 需要 对 数据 集 进行 处 理 。 

最 简单 的 处 理 方式 就 是 把 数据 裁剪 成 既定 的 大 小 ， 在 AlexNet 模型 中 ， 输 入 到 模型 中 的 
图 片 大 小 为 [227.227]， 因 此 这 里 建议 将 图 片 按 这 个 尺寸 进行 裁剪 。 代 码 段 如 下 : 


import cv2 
import os 
def rebuild (dir): 
for root, dirs, files in os.walk(dir): 
for file in files: 
filepath - os.path.join(root, file) 
try 
image = cv2.imread(filepath) 
dim = (227, 227) 
resized = cv2.resize(image,dim) 
path = "C:\\cat and dog\\dog r\\" + file 
cv2.imwrite (path, resized) 
except: 
print (filepath) 
os.remove (filepath) 
cv2.waitKey(0) #BiH 
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这 里 导入 的 是 图 片 集 的 根 目录 ，os 对 数据 集 所 在 的 文件 夹 进行 读 取 ， 之 后 的 一 个 for 循 环 
重建 了 图 片 数 据 所 在 的 路 径 ， 在 图 片 被 重 构 后 重新 写 入 了 给 定 的 位 置 。 

需要 提醒 的 是 ， 这 个 代码 段 中 对 数据 的 读 写 是 在 一 个 try 区 域 中 ， 因 为 在 整个 数据 集中 不 
可 避免 地 会 包含 和 出 现 坏 的 图 片 ， 当 程序 出 现 异 常 时 ， 最 简单 的 办 法 就 是 跳 过 出 问题 的 图 片 
继续 执行 下 去 。 因 此 在 except 模块 中 使 用 了 os.remove 函数 对 图 片 进行 删除 。 











dm 在 猫 狗 大 战 数据 集中 ,竞赛 组 织 方 提 供 了 较为 充足 的 图 片 供 模型 学 习 ， 当 读者 在 进行 别 的 
I 模型 训练 时 ， 可 以 使 用 多 种 方法 对 数据 进行 重新 生成 ， 这 里 读者 可 以 自行 查阅 资料 设计 。 














2. 第 二 步 : 图 片 数 据 集 转化 为 TensorFlow 专用 格式 


在 前 面 章节 已 介绍 过 ， 对 于 数据 集 来 说 ， 最 好 的 方法 就 是 将 其 转换 为 TensorFlow 专用 的 
数据 格式 ， 即 TFRecord 格式 。 


detsgererideorirfesdrimy 
images - [] 
temp = [] 
for root, sub folders, files in os.walk(file dir): 
* image directories 
for name in files: 
images.append(os.path.join(root, name)) 
# get 10 sub-folder names 
for name in sub folders: 
temp.append(os.path.join(root, name)) 
print (files) 
# assign 10 labels based on the folder names 
labels - [] 
for one folder in temp: 
n img = len(os.listdir(one folder)) 
letter = one folder.split('\\') [-1] 


if letter--'cat': 
labels - np.append(labels, n img*[0]) 
else: 
labels = np.append(labels, n img*[1]) 
* shuffle 
temp = np.array([images, labels]) 
temp = temp.transpose() 


np.random.shuffle (temp) 


image list — list(temp[:, 0]) 
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label list list(temp[:, 1]) 
label list = [int(float(i)) for i in label list] 


return image list, label list 


上 面 的 代码 段 中 ， 首 先是 对 数据 集 文件 的 位 置 进行 读 取 ， 之 后 根据 文件 夹 名 称 的 不 同 将 
处 于 不 同文 件 夹 中 的 图 片 标签 设置 为 0 或 者 1， 如 果 有 更 多 分 类 的 话 , 可 以 依据 这 个 格式 设置 
更 多 的 标签 类 。 之 后 使 用 创建 的 数组 对 所 读 取 的 文件 位 置 和 标签 进行 保存 ， 而 NumPy 对 数组 
的 调整 重 构 了 存储 有 对 应 文件 位 置 和 文件 标签 的 矩阵 ， 并 将 其 返回 。 

在 获取 图 片 数 据 文件 位 置 和 图 片 标签 之 后 ， 即 可 通过 相应 的 程序 对 其 进行 读 取 ， 并 生成 
专用 的 TFRecord 格式 的 数据 集 。 


def int64 feature (value): 





return tf.train.Feature(int64 list-tf.train.Int64List (value-value)) 


def bytes feature (value): 
return tf.train.Feature(bytes list-tf.train.BytesList (value-[value])) 


def convert to tfrecord(images list, labels list, save dir, name): 
filename = os.path.join(save dir, name + '.tfrecords') 
n samples - len(labels list) 
writer = tf.python io.TFRecordWriter (filename) 
print('WMnTransform start...... Ey 
for i in np.arange(0, n samples): 
Ery: 
image = io.imread(images list [i]) # type(image) must be array! 
image raw = image.tostring() 
label = int(labels[i]) 
example = tf.train.Example (features-tf.train.Features(feature-( 
'label':int64 feature(label), 
'image raw': bytes feature(image raw)])) 
writer.write(example.SerializeToString()) 
except IOError as e: 
print('Could not read:', images[i]) 
writer.close() 


print('Transform done!') 


首先 是 转换 格式 的 定义 ， 这 里 需要 将 数据 转换 为 相应 的 格式 ， 这 个 内 容 在 前 面 讲解 IO 的 
时 候 已 经 做 了 介绍 ， 这 里 就 不 再 重复 。 

convert to tfrecord(images list, labels list, save _dir，name) 函 数 中 需要 4 个 参数 ， 其 中 
image list fil labels list 是 上 一 个 代码 段 获取 的 图 片 位 置 和 对 应 标签 的 列表 。save_dir 是 存储 路 
径 ， 如 果 希 望 将 生成 的 TFRecord 文件 存储 在 当前 目录 下 ， 直 接 使 用 空 的 双 引号 " " 即 可 。 最 后 
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E 成 的 文件 名 ， 这 里 只 需 填 写 名 称 就 会 自动 生成 “.tfrecords” 格 式 结尾 的 数据 集 。 
当 生 成 完 数据 集 后 ， 在 神经 网 络 使 用 数据 集 进 行 训练 时 ,需要 一 个 方法 将 数据 从 数据 集中 
取出 ， 下 面 的 代码 段 完 成 了 数据 读 取 的 功能 。 


def read and decode(tfrecords file, batch size): 


m 





m 
L 








filename queue - tf.train.string input producer([tfrecords file]) 


reader = tf.TFRecordReader() 
_ Serialized example = reader.read(filename queue) 
img features = tf.parse single example( 
serialized example, 
features-( 
'"label': tf.FixedLenFeature([], 
tf.int64), 
'image raw': tf.FixedLenFeature([], 
tf.string), 
) 


image = tf.decode raw(img features['image raw'], tf.uint8) 


image tf.reshape(image, [227,227,3]) 
label tf.cast(img features['label'], tf.int32) 
image batch, label batch - tf.train.shuffle batch([image, label], 


batch size- batch size, 


min after dequeue-100, 
num threads- 64, 
capacity - 200) 
return image batch, tf.reshape(label batch, [batch size]) 
这 里 按 写 入 格式 读 取 数据 集 。 需 要 注意 的 是 ， 输 入 的 参数 对 读 取 的 batch 尺寸 进行 了 设 
置 ， 如 果 大 小 不 合适 的 话 ， 就 会 影响 模型 的 训练 速度 。 


3. 第 二 步 补充 : 图 片 地 址 数据 集 转 化 为 TensorFlow 专用 格式 


对 于 数据 容量 不 太 大 的 数据 集 ， 将 其 整体 转换 成 TensorFlow 专用 格式 输入 到 模型 中 进行 
训练 是 一 个 非常 好 的 方法 。 但 是 对 于 有 些 容量 非常 庞大 ， 数 据 量 非常 多 的 数据 集 来 说 ， 将 其 
转换 成 TFRecord 格式 是 一 个 非常 浩大 的 工程 ， 而 且 往往 由 于 原始 的 数据 集 和 转换 后 的 数据 集 
容量 过 大 ， 使 得 加 载 和 读 取 耗费 更 多 的 资源 ， 从 而 引起 一 系列 的 问题 。 

因此 在 工程 上 ， 除 了 直接 将 数据 集 转化 成 专用 的 数据 格式 之 外 ， 还 有 一 种 常用 的 方法 就 
是 将 需要 读 取 的 数据 地 址 集 转换 成 专用 的 格式 ， 每 次 直接 在 其 中 读 取 生 成 batch 后 的 地 址 ， 将 
地 址 读 取 后 直接 在 模型 内 部 生成 包含 25 个 图 片 格式 的 TFRecord。 代 码 段 如 下 : 


def get batch(image list, 





label list,img width,img height,batch size,capacity): 
image = tf.cast(image list,tf.string) 
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label = tf-cast(label Irst,tf.int32) 
input queue = tf.train.slice input producer([image,label]) 


label = input queue[1] 
image contents = tf.read file(input queue[0]) 
image = tf.image.decode jpeg(image contents, channels-3) 


image — 
tf.image.resize image with crop or pad(image,img width,img height) 

image = tf.image.per image standardization (image) # 将 图 片 标准 化 

image batch,label batch = 
tf.train.batch([image,label],batch size-batch size,num threads-64,capacity-cap 
acity) 

label batch = tf.reshape(label batch, [batch size]) 


return image batch,label batch 


在 这 里 get batch(image list, label list, img width.img_heightbatch_size,capacity) 函 数 中 有 6 
个 参数 ， 前 2 个 分 别 为 图 片 列表 和 标签 列表 (图 片 列 表 和 标签 列表 的 生成 方式 在 前 文 的 代码 段 
中 已 经 说 明 ) 。img_width 和 img height 分 别 为 生成 图 片 的 大 小 ， 这 里 可 以 按 模型 的 需求 指 
定 。batch_size 和 capacity 分 别 是 每 次 生成 的 图 片 数 量 和 在 内 存 中 存储 的 最 大 数据 容量 ， 这 里 
可 根据 不 同 硬件 配置 指定 。 

4. 第 三 步 : 标签 格式 的 重 构 与 模型 存储 


在 上 文 标签 的 生成 过 程 中 ， 标 签 按 文件 夹 名 称 的 不 同 生成 1 或 者 0。 在 模型 的 计算 中 ， 需 
要 将 不 同 的 标签 按 one-hot 存储 的 格式 生成 2 维 矩 阵 。 这 里 更 改 标签 格式 的 代码 为 : 
def onehot (labels): 
'''one-hot 编码 ''' 
n sample = len(labels) 
n class = max(labels) + 1 
onehot labels = np.zeros((n sample, n class)) 
onehot labels[np.arange(n sample), labels] = 1 
return onehot labels 


可 以 看 到 标签 输入 到 这 里 之 后 生成 一 个 2 维 矩阵 ， 之 后 根据 大 小 数目 ， 和 矩阵 的 相应 位 置 
被 标记 为 数字 1。 


13.2.2 ”模型 的 训练 与 存储 


1. 第 一 步 : 模型 的 使 用 
这 里 使 用 预先 实现 的 AlexNet 模型 ， 代 码 段 如 下 : 
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with tf.device('/cpu:0'): 
+ 模型 参数 
learning rate = le-4 
training iters = 200 
batch size = 50 
display step = 5 
n classes = 2 
n fcl = 4096 
n fc2 = 2048 


+ 构建 模型 
x = tf.placeholder(tf.float32, [None, 227, 227, 3]) 
y = tf.placeholder(tf.int32, [None, n classes]) 


W conv - ( 
'convl': tf.Variable(tf.truncated normal([11, 11, 3, 96], 
stddev-0.0001)), 
'conv2': tf.Variable(tf.truncated normal([5, 5, 96, 256], 
stddev-0.01)), 
'conv3': tf.Variable(tf.truncated normal([3, 3, 256, 384], 
stddev-0.01)), 
'conv4': tf.Variable(tf.truncated normal([3, 3, 384, 384], 
stddev-0.01)), 
'conv5': tf.Variable(tf.truncated normal([3, 3, 384, 256], 
stddev-0.01)), 
'fcl': tf.Variable(tf.truncated normal([13 * 13 * 256, n fc1], 
stddev-0.1)), 
'fc2': tf.Variable(tf.truncated normal([n fcl, n fc2], stddev-0.1)), 
'fc3': tf.Variable(tf.truncated normal([n fc2, n classes], 
stddev-0.1)) 
} 
b_conv = { 
'convl': tf.Variable(tf.constant(0.0, dtype=tf.float32, shape-[96])), 
'conv2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[256])), 
'conv3': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[384])), 
'conv4': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[384])), 
'conv5': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[256])), 
'fcl': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fc1])), 
'fc2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fc21)), 
'fc3': tf.Variable(tf.constant(0.0, dtype-tf.float32, 
shape-[n classes])) 
H 
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x image = tf.reshape(x, [-1, 227, 227, 3]) 


# 卷 积 层 1 

convl = tf.nn.conv2d(x image, W conv['convi'], strides-[1, 4, 4, 1], 
padding-'VALID') 

convi = tf.nn.bias add(convl, b conv['conv1']) 

convl = tf.nn.relu(convl) 

+ 池 化 层 1 

pooll = tf.nn.avg pool(convl, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'VALID') 

# LRN/É, Local Response Normalization 

norml — tf.nn.lrn(pooll, 5, bias-1.0, alpha-0.001 / 9.0, beta-0.75) 


# 卷 积 层 2 

conv2 = tf.nn.conv2d(norml, W conv['conv2'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv2 = tf.nn.bias add(conv2, b conv['conv2']) 

conv2 = tf.nn.relu(conv2) 

# 池 化 层 2 

pool2 = tf.nn.avg pool(conv2, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'VALID') 

# LRN/Z, Local Response Normalization 

norm2 - tf.nn.lrn(pool2, 5, bias-1.0, alpha-0.001 / 9.0, beta-0.75) 


+ 卷 积 层 3 

conv3 = tf.nn.conv2d(norm2, W conv['conv3'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv3 = tf.nn.bias add(conv3, b conv['conv3']) 


conv3 = tf.nn.relu(conv3) 


# 卷 积 层 4 

conv4 = tf.nn.conv2d(conv3, W conv['conv4'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv4 = tf.nn.bias add(conv4, b conv['conv4']) 


conva = tf.nn.relu(conv4) 


# 卷 积 层 5 

conv5 = tf.nn.conv2d(conv4, W conv['conv5'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv5 = tf.nn.bias add(conv5, b conv['conv5']) 


conv5 = tf.nn.relu(conv2) 


+ 池 化 层 5 
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pool5 = tf.nn.avg pool(conv5, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'VALID') 


reshape — tf.reshape(pool5, [-1, 13 * 13 * 256]) 


fcl = tf.add(tf.matmul(reshape, W conv['fcl']), b conv['fcl']) 
fcl = tf.nn.relu(fcl) 

fcl = tf.nn.dropout(fcl, 0.5) 

# 全 连接 层 2 

fc2 = tf.add(tf.matmul(fcl, W conv['fc2']), b conv['fc2']) 
fc2 = tf.nn.relu(fc2) 

fc2 = tf.nn.dropout(fc2, 0.5) 

# 全 连接 层 3， 即 分 类 层 

fc3 = tf.add(tf.matmul(fc2, W conv['fc3']), b conv['fc3']) 


# 定义 损失 
loss = tf.reduce mean(tf.nn.softmax cross entropy with logits(fc3, y)) 
optimizer = 

tf.train.GradientDescentOptimizer (learning rate=learning rate) .minimize(loss) 
# 评估 模型 
correct pred = tf.equal(tf.argmax(fc3, 1), tf.argmax(y, 1)) 
accuracy - tf.reduce mean(tf.cast(correct pred, tf.float32)) 


init - tf.global variables initializer() 


def onehot (labels): 
'''one-hot 编码 ''' 
n sample = len(labels) 
n class = max(labels) + 1 
onehot labels - np.zeros((n sample, n class)) 
onehot labels[np.arange(n sample), labels] = 1 
return onehot labels 


可 能 有 读者 注意 到 模型 的 第 一 句 是 with tf device(Vcpu:0)， 使 用 这 条 语句 是 对 使 用 的 CPU 
情况 进行 注释 。 如 果 有 多 个 CPU 共同 使 用 的 话 ， 那 么 此 模型 的 训练 可 以 是 仅仅 使 用 序列 上 第 
一 个 CPU 进行 工作 。 

2. 第 二 步 : 模型 的 存储 

除 此 之 外 ， 对 于 训练 的 模型 ， 根 据 不 同 的 情况 ， 需 要 对 模型 的 结构 以 及 设 定 的 权重 进行 
存储 。TensorFlow 中 也 提供 了 模型 存储 的 函数 ， 即 t£save 函数 。 有 具体 使 用 如 下 : 


save model = ".//model//AlexNetModel.ckpt" 
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saver = tf.train.Saver() 


saver.save (sess, save model) 


在 模型 存储 的 阶段 ， 只 需要 使 用 TensorFlow 提供 的 save 函数 进行 存储 。 需 要 说 明 的 是 ， 
模型 可 以 存储 在 绝对 路 径 下 ， 也 可 以 存储 在 当前 路 径 下 ， 而 当前 路 径 的 存储 需要 在 其 文件 夹 
名 前 加 “./”， 这 是 最 新 的 格式 要 求 。 

对 于 文件 的 读 取 ， 可 以 同样 使 用 save 函数 进行 读 取 。 再 看 下 面 代码 : 


save model = tf.train.latest_checkpoint ('.//model') 





saver.restore (sess, save model) 


iftrain.latest checkpoint 函数 是 读 取 对 应 文件 夹 中 最 新 的 一 个 模型 ， 使 用 这 种 模型 的 好 处 
是 可 以 根据 最 新 的 时 间 回 复 最 新 的 存储 模型 。 

对 于 回复 的 模型 需要 注意 的 是 ， 回 复 的 模型 一 定 要 使 用 模型 训练 的 占 位 符 符号 进行 数据 
输入 ， 同 时 用 同一 个 saver 对 象 来 恢复 变量 。 注 意 ， 当 你 从 文件 恢复 变量 时 ， 不 需要 对 它 进行 
初始 化 ， 否 则 会 报错 。 

3. 第 三 步 : 模型 的 训练 

完成 上 面 全 部 工作 后 ， 最 后 一 步 是 对 模型 进行 训练 。 

当 模 型 设计 和 数据 的 准备 已 经 完成 之 后 ， 即 可 开始 模型 的 训练 工作 。 这 里 为 了 便于 读 
取 ， 将 整个 模型 训练 工作 放 在 一 个 train 函数 中 ， 传 递 相关 的 次 数 即 可 。 


def train(opench): 





with tf.Session() as sess: 
sess.run (init) 
save model = ".//model//AlexNetModel.ckpt" 
train writer = tf.summary.FileWriter(". //log", sess.graph) 
saver — tf.train.Saver() 


loss - [] 
start time — time.time() 


coord = tf.train.Coordinator() 
threads - tf.train.start queue runners (coord-coord) 
step = 0 
for i in range(1): 
step = i 
image, label = sess.run([ image batch, label batch]) 


labels = onehot (label) 


sess.run(optimizer, feed dict-(x: image, y: labels]) 
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loss record = sess.run(loss, feed dict={x: image, y: labels}) 


print ("now the loss is $f "$1oss record) 


loss.append(loss record) 

end time — time.time() 

print('time: ', (end time - start time)) 
start time = end time 


print("Optimization Finished!") 
saver = tf.train.Saver() 
saver.save(sess, save model) 
print("Model Save Finished!") 


coord.request stop() 
coord.join(threads) 
plt.plot (loss) 
plt.xlabel('iter') 
plt.ylabel('loss') 
plt.tight layout () 
plt.savefig('cnn-tf-AlexNet.png' * 0, dpi-200) 


在 模型 的 训练 中 ， 首 先 产 生 了 模型 输出 通道 ， 之 后 使 用 batch size 批量 读 取 数 据 。 无 论 采 
用 何 种 数据 读 取 格式 ， 对 于 标签 label 来 说 ， 都 需要 将 其 转换 成 矩阵 格式 ， 因 此 在 读 入 模型 前 
需要 使 用 one-hot 函数 对 其 进行 操作 。 

这 里 提供 了 一 个 loss 数组 作为 损失 函数 的 记录 ， 在 模型 的 训练 结束 后 ， 可 以 查看 相关 的 
loss 程度 对 模型 进行 修改 。 

从 图 13-14 中 可 以 看 到 ， 经 过 5000 次 循环 训练 后 ， 损 失 函 数 逐 渐 趋 于 稳定 ， 在 0~3 进行 
波动 。 并 且 可 以 看 到 ， 损 失 函 数 在 一 开始 500 次 左右 下 降 很 快 ， 而 到 1000 次 以 后 ， 基 本 上 趋 
向 在 一 个 稳定 的 区 间 波 动 。 














0 1000 2000 3000 4000 5000 


图 13-14 5000 次 循环 训练 后 损失 函数 的 趋势 曲线 
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13.2.3 ”使 用 训练 过 的 模型 预测 图 片 
模型 训练 的 最 终 目的 是 使 用 训练 好 的 模型 对 图 片 进行 预测 ， 此 时 就 需要 使 用 保存 好 的 模 
型 。 调 用 已 经 保存 的 模型 代码 在 上 文 已 经 给 出 过 : 


save model = tf.train.latest checkpoint('.//model') 
Saver.restore(sess, save model) 


这 里 直接 使 用 t£train.latest checkpoint 函数 即 可 读 取 对 应 目录 下 最 后 存储 的 模型 和 权重 文 
件 。 代 码 段 如 下 : 


from PIL import Image 





def per class (imagefile): 
image = Image.open (imagefile) 
image = image.resize([227, 227]) 
image array = np.array (image) 


image = tf.cast(image array,tf.float32) 
image = tf.image.per image standardization (image) 
image - tf.reshape(image, [1, 227, 227, 3]) 


saver — tf.train.Saver() 
with tf.Session() as sess: 


save model = tf.train.latest checkpoint ('.//model') 
saver.restore (sess, save model) 

image = tf.reshape(image, [1, 227, 227, 3]) 

image = sess.run(image) 

prediction = sess.run(fc3, feed dict-(x: image]) 


max index = np.argmax (prediction) 
if max index--0: 

return "cat" 
else: 


return "dog" 


per_class(imagefile) 函 数 中 包含 一 个 参数 ， 即 图 片 文件 的 地 址 ， 之 后 使 用 PIL 重新 读 取 图 
片 后 将 其 重 构 为 所 需要 的 [227.227] 大 小 的 图 片 数 据 ， 之 后 再 将 其 进行 矩阵 处 理 后 准备 输入 模 
型 进行 甄别 。 

模型 的 读 取 采 用 的 是 save.restore 函数 ， 从 最 近 保 存 的 文件 夹 中 读 取 相对 应 的 文件 后 将 模 
型 重新 载 入 。 此 时 需要 注意 的 是 ， 这 里 载 入 的 模型 依旧 要 使 用 保存 的 模型 中 的 训练 占 位 符 以 
及 模式 标识 。 


prediction = sess.run(fc3, feed dict={x: image]) 
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即 上 面 代码 段 中 fe3 的 模型 以 及 数据 输入 的 占 位 符 x。 这 一 点 非常 重要 ， 请 读者 在 使 用 时 不 要 
出 错 。 
最 终 AlexNet 程序 如 下 所 示 。 


【程序 13-1】 


# coding: utf-8 


import tensorflow as tf 

import numpy as np 

import matplotlib.pyplot as plt 

import time 

import create and read TFRecord2 as reader2 
import os 


X train, y train = reader2.get file("c:\\cat and dog r") 


image batch, label batch - reader2.get batch(X train, y train, 227, 227, 200, 
2048) 


def batch norm(inputs, is training,is conv out-True,decay - 0.999): 


Scale = tf.Variable(tf.ones([inputs.get shape()[-111)) 

beta = tf.Variable(tf.zeros([inputs.get shape()[-111)) 

pop mean = tf.Variable(tf.zeros([inputs.get shape()[-111), 
trainable-False) 


pop var = tf.Variable(tf.ones([inputs.get shape()[-11]), trainable-False) 


if is training: 
if is conv out: 


batch mean, batch var 


tf.nn.moments (inputs, [0,1,2]) 
else: 


batch mean, batch var 


tf.nn.moments (inputs, [0]) 


train mean = tf.assign(pop mean, 
pop mean * decay * batch mean * (1 - decay)) 
train var = tf.assign(pop var, 
pop var * decay * batch var * (1 - decay)) 
with tf.control dependencies([train mean, train var]): 
return tf.nn.batch normalization (inputs, 
batch mean, batch var, beta, scale, 0.001) 
else: 


return tf.nn.batch normalization (inputs, 


251 








pop mean, pop var, beta, scale, 0.001) 


with tf.device('/cpu:0'): 
# 模型 参数 
learning rate = le-4 
training iters = 200 
batch size = 200 
display step = 5 
n classes = 2 
n fcl = 4096 
n fc2 = 2048 


# 构建 模型 
x = tf.placeholder(tf.float32, [None, 227, 227, 3]) 
y tf.placeholder (tf.int32, [None, n_classes]) 


W conv - ( 
'convli': tf.Variable(tf.truncated normal([11, 11, 3, 96], 
stddev-0.0001)), 
'conv2': tf.Variable(tf.truncated normal([5, 5, 96, 256], 
stddev-0.01)), 
'conv3': tf.Variable(tf.truncated normal([3, 3, 256, 384], 
stddev-0.01)), 
'conv4': tf.Variable(tf.truncated normal([3, 3, 384, 384], 
stddev-0.01)), 
'conv5': tf.Variable(tf.truncated normal([3, 3, 384, 256], 
stddev-0.01)), 
'fcl': tf.Variable(tf.truncated normal([13 * 13 * 256, n fc1], 
stddev-0.1)), 
'fc2': tf.Variable(tf.truncated normal([n fcl, n fc2], stddev-0.1)), 
'fc3': tf.Variable(tf.truncated normal([n fc2, n classes], 
stddev-0.1)) 
} 
b conv = { 
"conv1': tf.Variable(tf.constant(0.0, dtype=tf.float32, shape-[96])), 
'conv2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[256])), 
'conv3': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[384])), 
'conv4': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[384])), 
'conv5': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[256])), 
'fcl': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fcl1])), 
'fc2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fc2]1)), 
'fc3': tf.Variable(tf.constant(0.0, dtype-tf.float32, 
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shape-[n classes])) 


} 
x image = tf.reshape(x, [-1, 227, 227, 3]) 


# 卷 积 层 1 

convl = tf.nn.conv2d(x image, W conv['convl'], strides-[1, 4, 4, 1], 
padding-'VALID') 

convl = tf.nn.bias add(convl, b conv['conv1']) 

convl = tf.nn.relu(convl) 

+ 池 化 层 1 

pooll = tf.nn.avg pool(convl, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'VALID') 

# LRN Æ, Local Response Normalization 

norml = tf.nn.lrn(pooll, 5, bias-1.0, alpha=0.001 / 9.0, beta-0.75) 


# 卷 积 层 2 

conv2 = tf.nn.conv2d(norml, W conv['conv2'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv2 = tf.nn.bias add(conv2, b conv['conv2']) 

conv2 = tf.nn.relu(conv2) 

+ 池 化 层 2 

pool2 = tf.nn.avg pool(conv2, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'VALID') 

# LRN, Local Response Normalization 

norm2 = tf.nn.lrn(pool2, 5, bias=1.0, alpha=0.001 / 9.0, beta=0.75) 


# 卷 积 层 3 

conv3 = tf.nn.conv2d(norm2, W conv['conv3'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv3 = tf.nn.bias add(conv3, b conv['conv3']) 


conv3 = tf.nn.relu(conv3) 


# 卷 积 层 4 

conv4 = tf.nn.conv2d(conv3, W conv['conv4'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv4 = tf.nn.bias add(conv4, b conv['conv4']) 

conva = tf.nn.relu(conv4) 


# 卷 积 层 5 
conv5 = tf.nn.conv2d(conv4, W conv['conv5'], strides-[1, 1, 1, 1], 
padding-'SAME!) 


conv5 = tf.nn.bias add(conv5, b conv['conv5']) 
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conv5 = tf.nn.relu(conv2) 


+ 池 化 层 5 


pool5 = tf.nn.avg pool(conv5, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 


padding-'VALID') 


reshape = tf.reshape(pool5, [-1, 13 * 13 * 256]) 


fcl = tf.add(tf.matmul(reshape, W conv['fcl']), b conv['fcl']) 


fcl = tf.nn.relu(fcl) 
fcl = tf.nn.dropout(fcl, 0.5) 
# 全 连接 层 2 


fc2 = tf.add(tf.matmul(fcl, W conv['fc2']), b conv['fc2']) 


fc2 = tf.nn.relu(fc2) 
fc2 = tf.nn.dropout(fc2, 0.5) 
# 全 连接 层 3， 即 分 类 层 


fc3 = tf.add(tf.matmul(fc2, W conv['fc3']), b conv['fc3']) 


# 定义 损失 


loss = tf.reduce mean(tf.nn.softmax cross entropy with logits(fc3, y)) 


optimizer = 


tf.train.GradientDescentOptimizer (learning rate=learning rate) .minimize (loss) 


# 评估 模型 


correct pred = tf.equal(tf.argmax(fc3, 1), tf.argmax(y, 1)) 


accuracy - tf.reduce mean(tf.cast(correct pred, tf.float32)) 


init - tf.global variables initializer() 


def onehot (labels): 
'''one-hot 编码 ''' 
n sample = len(labels) 


n class = max(labels) + 1 


onehot labels - np.zeros((n sample, n class)) 


onehot labels[np.arange(n sample), labels] - 


return onehot labels 


save model = ".//model//AlexNetModel.ckpt" 
def train(opech): 
with tf.Session() as sess: 


sess.run(init) 


train writer = tf.summary.FileWriter(".//log", sess.graph) 


的 地 方 
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saver = tf.train.Saver() 


(s: ce 
start time — time.time() 


coord = tf.train.Coordinator() 
threads = tf.train.start queue runners (coord-coord) 
step = 0 
for i in range (opech) : 
step = i 
image, label = sess.run([image batch, label batch]) 


labels - onehot (label) 


sess.run(optimizer, feed dict-(x: image, y: labels]) 
loss record - sess.run(loss, feed dict-(x: image, y: labels]) 
print("now the loss is $f " $ loss record) 


c.append(loss record) 

end time = time.time() 

print('time: ', (end time - start time)) 

start time — end time 

print memi Sdionpech s $inijshed-——————— ee ee 5:939) 
print("Optimization Finished!") 
saver.save(sess, save model) 
print("Model Save Finished!") 


coord.request stop() 

coord. join (threads) 

plt.plot (c) 

plt.xlabel('Iter') 

plt.ylabel('1loss') 

plt.title('lr-$f, ti-$d, bs-$d' $ (learning rate, training iters, 
batch size)) 

plt.tight layout () 

plt.savefig('cat and dog AlexNet.jpg', dpi-200) 


from PIL import Image 


def per class (imagefile): 


image = Image.open(imagefile) 


image = image.resize([227, 227]) 
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image array = np.array (image) 


image tf.cast(image array,tf.float32) 


1 


image tf.image.per image standardization (image) 


image = tf.reshape(image, [1, 227, 227, 3]) 


saver = tf.train.Saver() 


with tf.Session() as sess: 


save model = tf.train.latest checkpoint ('.//model') 
saver.restore(sess, save model) 

image = tf.reshape(image, [1, 227, 227, 3]) 

image = sess.run(image) 


prediction - sess.run(fc3, feed dict-(x: image]) 


max index = np.argmax (prediction) 
if max index--0: 

return "cat" 
else: 

return "dog" 


程序 13-1 是 使 用 AlexNet 对 图 像 进行 识别 训练 和 预测 的 完整 程序 。 需 要 注意 的 是 ， 这 里 


提供 了 2 种 数据 读 取 方 法 ， 分 别 对 应 13.2.1 节 中 的 2 种 数据 读 取 和 生成 方法 。 


执行 程序 的 代码 如 下 : 


imagefile = "C:\\cat_and_dog\\cat\\" 
cat = dog = 0 


train (1000) 
for root, sub folders, files in os.walk(imagefile): 
for name in files: 
imagefile — os.path.join(root, name) 
print (imagefile) 


if per class(imagefile) == "cat": 
cat += 1 
else: 
dog += 1 
Print (Teat is "alr T ldaog is :", dog) 


imagefile 是 数据 图 片 存储 的 路 径 ， 之 后 采用 for 循 环 将 所 有 的 图 片 送 入 模型 进行 训练 ， 通 


过 判定 返回 值 的 大 小 来 确定 模型 计算 的 结果 。 最 终结 果 请 读者 自行 训练 测试 。 
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13.24 使 用 Batch_Normalization 正则 化 处 理 数据 集 


可 能 有 读者 注意 到 ， 在 AlexNet 训练 模型 中 ， 损 失 函 数 虽 然 按 照 既定 的 想法 发 挥 作用 , B 
着 训练 次 数 的 不 断 增加 ， 损 失 函 数 的 数值 也 大 量 降低 。 但 是 ， 对 于 损失 函数 来 说 ， 仍 然 需 要 
考虑 可 能 的 因素 以 降低 损失 函数 的 差 值 。 

一 般 来 说 ， 当 模型 设计 完毕 以 后 ， 更 多 需要 对 输入 数据 的 处 理 ， 不 同 的 数据 类 型 以 及 图 
片 属性 都 会 对 模型 的 训练 产生 很 大 的 影响 。 因 此 ， 就 需要 一 种 专门 的 方法 去 解决 图 片 不 同 而 
产生 的 差异 影响 。 

对 于 深度 学 习 来 说 , 数据 在 模型 中 的 训练 是 一 个 复杂 的 过 程 , 如 果 训 练 模型 网 络 的 前 面 几 
层 发 生 非常 小 的 变化 , 随 着 梯度 下 降 算法 的 计算 ,这 个 微小 的 变化 在 后 面 几 层 就 会 被 累积 放大 。 

当 数 据 输入 的 属性 分 布 发 生 改 变 ， 即 使 是 很 小 的 变化 ,在 传递 这 个 变化 的 过 程 中 , 网 络 的 
后 端 产生 会 非常 大 的 变化 , 从 而 会 引起 整个 模型 、 整 个 网 络 去 重新 适应 和 学 习 这 个 新 的 数据 分 
布 。 如 果 训 练 数据 的 分 布 一 直 在 发 生变 化 , 训练 模型 对 最 后 的 预测 结果 也 是 在 一 个 比较 大 的 错 
误 率 之 间 浮 动 。 

Batch_Normalization 是 一 种 最 新 的 对 数据 差异 性 进行 处 理 的 手段 ,通过 对 “在 一 个 范围 内 ” 
的 数据 进行 规范 化 处 理 ， 使 得 输出 结果 的 均值 为 0， 方 差 为 1。 具 体 公式 如 图 13-15 所 示 。 











Input: Values of x over a mini-batch: B = {21...m}; 
Parameters to be learned: y, 8 
Output: (y; = BN,,5(;)) 
1 
mwez NS Ti // mini-batch mean 
1 
iz 
oic = 2e: — ug}? // mini-batch variance 
[E // normalize 
Vog T€ 
yi — di + B = BN, s(z) // scale and shift 











Algorithm 1: Batch Normalizing Transform, applied to 
activation z over a mini-batch. 


图 13-15 正则 化 公式 
在 此 我 们 不 需要 详细 了 解 此 公式 的 推导 与 证 明 过 程 ， 有 兴趣 的 读者 可 以 对 此 公式 自行 进 
行 研 究 。TensorFlow 提供 了 专门 的 函数 来 完成 数据 的 Batch Normalization 计算 。 
batch normalization 函数 用 法 如 下 : 


batch normalization(x, mean, variance, offset, scale, variance epsilon, 
name-None): 


下 面 对 这 个 函数 的 参数 进行 解释 : 
e X: 输入 的 数据 文件 。 
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Mean: 批量 数据 均值 。 
Variance: 批量 数据 方差 。 
Offset: 待 训练 参数 。 

Scale: 待 训 练 参 数 。 

variance epsilon: 方差 编译 系数 。 
name: 名 称 。 


可 以 看 到 ， 这 里 主要 使 用 了 Batch 中 的 均值 以 及 方差 ，offset 和 scale 是 在 模型 中 需要 训练 
的 数据 ，variance_epsilon 是 需要 设 定 的 一 个 系数 ， 一 般 情 况 下 将 其 设置 为 0.0001 即 可 。 
TensorFlow 中 使 用 Batch Normalization 的 方法 如 下 : 


def batch norm(inputs, is training,is conv out-True,decay = 0.999): 


Scale = tf.Variable(tf.ones([inputs.get shape()[-111)) 

beta - tf.Variable(tf.zeros([inputs.get shape()[-111)) 

pop mean = tf.Variable(tf.zeros([inputs.get shape()[-111), 
trainable-False) 

pop var = tf.Variable(tf.ones([inputs.get shape()[-1]]), trainable-False) 


if is training: 
if is conv out: 


batch mean, batch var tf.nn.moments (inputs, [0,1,2]) 


else: 


batch mean, batch var tf.nn.moments (inputs, [0]) 


train mean - tf.assign(pop mean, pop mean * decay * batch mean * (1 - 
decay)) 
train var = tf.assign(pop var, pop var * decay + batch var * (1 - decay)) 
with tf.control dependencies([train mean, train var]): 
return tf.nn.batch normalization (inputs, 
batch mean, batch var, beta, scale, 0.001) 
else: 
return tf.nn.batch_normalization (inputs, 


pop mean, pop var, beta, scale, 0.001) 


首先 生成 variance 和 offset， 这 里 使 用 了 传统 的 占 位 符 ， 之 后 通过 t£nn moments 函数 获取 
了 数据 的 均值 与 均 方差 。train_mean 和 train_var 用 于 计算 滑动 平均 值 和 滑动 方差 ， 它 们 将 作为 
函数 的 数据 集 的 均值 和 均 方 差 输入 到 计算 函数 中 。 

t£.control dependencies 函数 表明 只 有 在 [train_ mean, train_var] 的 计算 结束 后 ， 才 可 以 对 下 
一 步 的 Batch Normalization 计算 ， 返 回 的 也 是 相对 应 的 函数 和 计算 值 。 

这 里 有 一 个 非常 重要 的 问题 : Batch_ Normalization 函数 用 在 模型 计算 的 哪个 位 置 。 一 般 
情况 下 ，Batch_ Normalization 用 在 矩阵 计算 之 前 , 因为 卷 积 神 经 网 络 经 过 卷 积 后 得 到 的 是 一 系 
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列 的 特征 图 。 在 卷 积 神经 网 络 中 , 可 以 把 每 个 特征 图 看 成 是 一 个 特征 处 理 ， 对 于 每 个 卷 积 后 的 
特征 图 都 只 有 一 对 可 学 习 参数 ， 同 时 求 取 所 有 样本 所 对 应 的 特征 图 的 所 有 神经 元 的 平均 值 、 
方差 ， 然 后 对 这 个 特征 图 神经 元 做 归 一 化 。 

具体 使 用 如 下 : 


w_conv = { 
'convl': tf.Variable(tf.truncated normal([11, 11, 3, 96], 
stddev-0.0001)), 
'conv2': tf.Variable(tf.truncated normal([5, 5, 96, 256], 
stddev-0.01)), 
'conv3': tf.Variable(tf.truncated normal([3, 3, 256, 384], 
stddev-0.01)), 
'conv4': tf.Variable(tf.truncated normal([3, 3, 384, 384], 
stddev-0.01)), 
'conv5': tf.Variable(tf.truncated normal([3, 3, 384, 256], 
stddev-0.01)), 
'fcl': tf.Variable(tf.truncated normal([13 * 13 * 256, n fc1], 
stddev-0.1)), 
'fc2': tf.Variable(tf.truncated normal([n fcl, n fc2], stddev-0.1)), 
'fc3': tf.Variable(tf.truncated normal([n fc2, n classes], 
stddev-0.1)) 
J 
b_conv = { 
"conv1': tf.Variable(tf.constant(0.0, dtype=tf.float32, shape-[96])), 
'conv2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[256])), 
'conv3': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[384])), 
'conv4': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[384])), 
'conv5': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[256])), 
'fcl': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fcl1])), 
'fc2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fc21)), 
'fc3': tf.Variable(tf.constant(0.0, dtype-tf.float32, 
shape-[n classes])) 


ls 
X image = tf.reshape(x, [-1, 227, 227, 3]) 


# 卷 积 层 1 

convl = tf.nn.conv2d(x image, W conv['convl'], strides-[1, 4, 4, 1], 
padding-'VALID') 

convl = tf.nn.bias add(convl, b conv['convl1']) 

convl = batch norm(convl,True) 


convl = tf.nn.relu(conv1l) 


s 池 化 层 1 
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pooll = tf.nn.avg pool(convl, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'VALID') 
norml = tf.nn.lrn(pooll, 5, bias-1.0, alpha-0.001 / 9.0, beta-0.75) 


+ 卷 积 层 2 

conv2 = tf.nn.conv2d(pooll, W conv['conv2'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv2 = tf.nn.bias add(conv2, b conv['conv2']) 

conv2 = batch norm(conv2,True) 

conv2 = tf.nn.relu(conv2) 

* 池 化 层 2 

pool2 = tf.nn.avg pool(conv2, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'VALID') 


+ 卷 积 层 3 

conv3 = tf.nn.conv2d(pool2, W conv['conv3'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv3 = tf.nn.bias add(conv3, b conv['conv3']) 

conv3 - batch norm(conv3,True) 


conv3 - tf.nn.relu(conv3) 


* 卷 积 层 4 

conv4 = tf.nn.conv2d(conv3, W conv['conv4'], strides-[1l, 1, 1, 1], 
padding-'SAME') 

conv4 = tf.nn.bias add(conv4, b conv['conv4']) 

conv4 = batch norm(conv4,True) 

conv4 = tf.nn.relu(conv4) 


+ 卷 积 层 5 

conv5 = tf.nn.conv2d(conv4, W conv['conv5'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv5 = tf.nn.bias add(conv5, b conv['conv5']) 

conv5 = batch norm(conv5,True) 


conv5 = tf.nn.relu(conv2) 


+ 池 化 层 5 

pool5 = tf.nn.avg_pool (conv5, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], 
padding='VALID') 

reshape = tf.reshape(pool5, [-1, 13 * 13 * 256]) 

fcl = tf.add(tf.matmul(reshape, W conv['fcl']), b conv['fcl']) 

fcl = batch norm(fcl,True,False) 

fcl - tf.nn.relu(fcl) 
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全 连接 层 2 

fc2 = tf.add(tf.matmul(fcl, W conv['fc2']), b conv['fc2']) 
fc2 = batch norm(fc2,True,False) 

fc2 tf.nn.relu(fc2) 

£fc3 tf.add(tf.matmul(fc2, W conv['fc3']), b conv['fc3']) 


从 上 面 代码 段 中 可 以 看 到 ， 在 每 个 卷 积 层 采样 之 后 ， 使 用 Batch Normalization 函数 进行 
数据 归 一 化 处 理 。 全 部 代码 如 程序 13-2 所 示 。 


【程序 13-2】 


# coding: utf-8 


M 


import tensorflow as tf 

import numpy as np 

import matplotlib.pyplot as plt 

import time 

import create and read TFRecord2 as reader2 
import os 


X train, y train = reader2.get file("c:\\cat and dog r") 


image batch, label batch - reader2.get batch(X train, y train, 227, 227, 200, 
2048) 


def batch norm(inputs, is training,is conv out-True,decay - 0.999): 


scale = tf.Variable(tf.ones([inputs.get shape()[-111)) 

beta = tf.Variable(tf.zeros([inputs.get shape()[-111)) 

pop mean = tf.Variable(tf.zeros([inputs.get shape()[-111), 
trainable-False) 


pop var - tf.Variable(tf.ones([inputs.get shape()[-1]]), trainable-False) 


if is training: 
if is conv out: 
batch mean, batch var - tf.nn.moments (inputs, [0,1,2]) 
else: 


batch mean, batch var = tf.nn.moments (inputs, [0] ) 
train mean = tf.assign(pop mean, pop mean * decay + batch mean * (1 - 


decay)) 


train var = tf.assign(pop var, pop var * decay + batch var * (1 - decay)) 
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with tf.control dependencies([train mean, train Var]) : 
return tf.nn.batch normalization (inputs, 
batch mean, batch var, beta, scale, 0.001) 
else: 
return tf.nn.batch normalization (inputs, 


pop mean, pop var, beta, scale, 0.001) 


with tf.device('/cpu:0') : 
模型 参数 
learning rate = le-4 
training iters = 200 
batch size = 200 
display step - 5 
n classes = 2 
n fcl = 4096 
n fc2 = 2048 


# 构建 模型 
x = tf.placeholder(tf.float32, [None, 227, 227, 3]) 
y 7 tf.placeholder(tf.int32, [None, n classes]) 


W conv - ( 
'convli': tf.Variable(tf.truncated normal([11, 11, 3, 96], 
stddev-0.0001)), 
'conv2': tf.Variable(tf.truncated normal([5, 5, 96, 256], 
stddev-0.01)), 
'conv3': tf.Variable(tf.truncated normal([3, 3, 256, 384], 
stddev-0.01)), 
'conv4': tf.Variable(tf.truncated normal([3, 3, 384, 384], 
stddev-0.01)), 
'conv5': tf.Variable(tf.truncated normal([3, 3, 384, 256], 
stddev-0.01)), 
'fcl': tf.Variable(tf.truncated normal([13 * 13 * 256, n fc1], 
stddev-0.1)), 
'fc2': tf.Variable(tf.truncated normal([n fcl, n fc2], stddev-0.1)), 
'fc3': tf.Variable(tf.truncated normal([n fc2, n classes], 
stddev-0.1)) 
H 
b conv = ( 
'convi': tf.Variable(tf.constant(0.0, dtype-tf.float32, shape-[96])), 
'conv2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[256])), 
'conv3': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[384])), 


262 


Ed 





章 猫 狗 





实战 AlexNet 图 像 识别 





'conv4': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[384])), 
'conv5': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[256])), 
'fcl': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fcl])), 
'fc2': tf.Variable(tf.constant(0.1, dtype-tf.float32, shape-[n fc21)), 
'fc3': tf.Variable(tf.constant(0.0, dtype-tf.float32, 

shape-[n classes])) 


} 


x image = tf.reshape(x, [-1, 227, 227, 3]) 


* 卷 积 层 1 

convl = tf.nn.conv2d(x image, W conv['convl'], strides-[1, 4, 4, 1], 
padding-'VALID') 

convl = tf.nn.bias add(convl, b conv['conv1']) 

convl = batch norm(convi1, True) 

convl = tf.nn.relu(convl) 

# 池 化 层 1 

pooll = tf.nn.avg pool(convl, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'VALID') 

norml = tf.nn.lrn(pooll, 5, bias-1.0, alpha-0.001 / 9.0, beta-0.75) 


* 卷 积 层 2 

conv2 = tf.nn.conv2d(pooll, W conv['conv2'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv2 = tf.nn.bias add(conv2, b conv['conv2']) 

conv2 = batch norm(conv2,True) 

conv2 = tf.nn.relu(conv2) 

# 池 化 层 2 

pool2 = tf.nn.avg pool(conv2, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'VALID') 


* 卷 积 层 3 

conv3 = tf.nn.conv2d(pool2, W conv['conv3'], strides-[1, 1, 1, 1], 
padding-'SAME') 

conv3 = tf.nn.bias add(conv3, b conv['conv3']) 

conv3 = batch norm(conv3,True) 

conv3 = tf.nn.relu(conv3) 


# 卷 积 层 4 

conv4 = tf.nn.conv2d(conv3, W conv['conv4'], strides-[1, 1, 1, 1], 
padding-'SAME!') 

conv4 = tf.nn.bias add(conv4, b conv['conv4']) 


conv4 = batch norm(conv4,True) 
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conv4 = tf.nn.relu(conv4) 


# 卷 积 层 5 


conv5 = tf.nn.conv2d(conv4, W conv['conv5'], strides-[1, 1, 1, 1], 


padding-'SAME') 


conv5 = tf.nn.bias add(conv5, b conv['conv5']) 
conv5 = batch norm(conv5, True) 


conv5 = tf.nn.relu(conv2) 


+ 池 化 层 5 
pool5 = tf.nn.avg pool(conv5, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 


padding-'VALID') 


reshape = tf.reshape(pool5, [-1, 13 * 13 * 256]) 


fcl = tf.add(tf.matmul(reshape, W conv['fcl']), b conv['fcl']) 
fcl = batch norm(fcl,True,False) 

fcl - tf.nn.relu(fcl) 

# 全 连接 层 2 

fc2 = tf.add(tf.matmul(fcl, W conv['fc2']), b conv['fc2']) 

fc2 = batch norm(fc2,True,False) 

fc2 = tf.nn.relu(fc2) 

fc3 = tf.add(tf.matmul(fc2, W conv['fc3']), b conv['fc3']) 

# 定义 损失 


loss = tf.reduce mean(tf.nn.softmax cross entropy with logits(fc3, y)) 


optimizer = 


tf.train.GradientDescentOptimizer (learning rate=learning rate) .minimize (loss) 


# 评估 模型 
correct pred = tf.equal(tf.argmax(fc3, 1), tf.argmax(y, 1)) 
accuracy - tf.reduce mean(tf.cast(correct pred, tf.float32)) 


init = tf.global variables initializer() 


def onehot (labels): 


'''one-hot 编码 '… 

n sample = len(labels) 

n class - max(labels) * 1 

onehot labels = np.zeros((n sample, n class)) 
onehot labels[np.arange(n sample), labels] = 1 
return onehot labels 


save model = ".//model//AlexNetModel.ckpt" 
def train(opech): 
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with tf.Session() as sess: 


sess.run (init) 


train writer = tf.summary.FileWriter(".//log", sess.graph) + 输出 日 志 


的 地 方 


saver = tf.train.Saver() 


c= 
start time = time.time() 


coord = tf.train.Coordinator() 
threads - tf.train.start queue runners (coord-coord) 
step = 0 
for i in range (opech): 
step = i 
image, label - sess.run([image batch, label batch]) 


labels = onehot(label) 


sess.run(optimizer, feed dict-(x: image, y: labels]) 
loss record = sess.run(loss, feed dict={x: image, y: labels]) 
print("now the loss is $f " $ loss record) 


c.append(loss record) 
end time = time.time() 
print('time: ', (end time - start time)) 
start time - end time 
print ========—==~== SdionpecHu s tinished=================== 5n qd) 
print("Optimization Finished!") 
+ checkpoint path = os.path.join(".//model", 'model.ckpt') # 输出 模型 的 
地 方 
saver.save (sess, save model) 
print("Model Save Finished!") 


coord.request stop() 

coord. join (threads) 

plt.plot (c) 

plt.xlabel('Iter') 

plt.ylabel('1loss') 

plt.title('lr-$f, ti-$d, bs-$d' $ (learning rate, training iters, 
batch size)) 

plt.tight layout () 

plt.savefig('cat and dog AlexNet.jpg', dpi-200) 


打印 出 最 终 损 失 函 数 曲线 如 图 13-16 所 示 。 
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13-16 加 入 Batch Normalization 后 的 损失 函数 变化 曲线 


图 中 选取 了 前 1500 次 循环 的 损失 函数 变化 率 作 为 计数 曲线 。 可 以 看 到 ， 随 着 次 数 的 增 
加 ， 损 失 率 由 1 降低 到 0.2 左右 ， 这 与 图 中 未 加 Batch Normalization 的 损失 曲线 相 比 较 ， 已 经 
获得 了 十 倍 以 上 的 提高 。 

相关 结果 请 读者 自行 验证 。 


13.3 本章 小 结 


本 章 详细 介绍 了 使 用 AlexNet 进行 图 像 处 理 的 一 个 例子 ， 这 个 例子 来 源 于 现实 中 的 
Kaggle 竞赛 一 一 猫 狗 大 战 。 

本 章 循序 渐进 地 讲解 了 完成 一 个 图 像 识 别 项 目的 全 部 流程 : 数据 的 收集 与 处 理 、 模 型 的 
设计 与 训练 、 中 途 图 像 的 存储 和 参数 调整 ， 这 些 都 是 在 工业 或 者 商业 上 做 图 像 识别 最 常用 的 
技能 。 

本 章 讲述 的 实例 是 深度 学 习 对 图 像 识 别 应 用 的 经 典 。 在 实际 的 工作 中 , 读者 可 能 会 遇 到 更 
多 要 求 对 图 像 识别 进行 研究 的 案例 , 综合 运用 多 种 模型 和 手段 去 发 现 数据 所 蕴含 的 价值 , 提取 
图 像 中 特征 并 做 出 分 类 是 研究 的 目的 .相信 通过 本 书 的 学 习 能 够 使 读者 初步 掌握 使 用 卷 积 神经 
网 络 处 理 图 像 的 方法 。 
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